Daily Briefing

2026-07-01 AI Daily

今天 AI 新品把高效多模態、agent 執行與科學研究工作流一起推向可實際導入 5 則 AI 技術與產品重點：Claude Sonnet 5 強化 agent 與工具使用，以較低成本逼近 Opus 4.8、Google 推出 Nano Banana 2 Lite 與 Gemini Omni Flash，串接高速圖片與互動式影片生成、Claude Science 整合研究工具、運算資源與可追溯產物，讓科學分析集中在單一工作台、LongCat-2.0 開源 1.6 兆參數 MoE，以稀疏注意力支援百萬 token agent 任務、OpenAI 發布 GeneBench-Pro，評測 AI agent 處理真實生物資料的判斷能力

Threads Instagram

01 / 模型

Claude Sonnet 5 強化 agent 與工具使用，以較低成本逼近 Opus 4.8

Anthropic 發布 Claude Sonnet 5，強化規劃、瀏覽器與終端機工具使用，以及長時間自主完成任務的能力。官方評測顯示，它在部分 agent 搜尋與電腦操作設定可接近 Opus 4.8，並以每百萬輸入 2 美元、輸出 10 美元的上市優惠價供應至 8 月 31 日。模型已成為 Free 與 Pro 預設選項，也進入 Claude Code 與 API。團隊導入時可先以既有 agent 測試集比較完成率、延遲與總成本，再決定是否替換較大型模型。

關鍵影響：用既有 agent 測試集比較完成率與總成本

來源：Introducing Claude Sonnet 5

Claude Sonnet 5 強化 agent 與工具使用，以較低成本逼近 Opus 4.8 圖片摘要

02 / 多模態模型

Google 推出 Nano Banana 2 Lite 與 Gemini Omni Flash，串接高速圖片與互動式影片生成

Google 同時推出 Nano Banana 2 Lite 與 Gemini Omni Flash。前者主打大量圖片工作流，官方標示 1K 圖片每張 0.034 美元、約 4 秒輸出。後者以文字、圖片與影片作為輸入，支援自然語言多輪編輯，現以公開預覽進入 Gemini API 與 AI Studio，影片輸出每秒 0.10 美元。開發者可透過 Interactions API 保留工作階段紀錄，串起先產圖、再轉成影片的流程。導入時應分別量測品質、延遲與多輪編輯的一致性。

關鍵影響：分開量測產圖延遲與影片編輯一致性

來源：Start building with Nano Banana 2 Lite and Gemini Omni Flash

Google 推出 Nano Banana 2 Lite 與 Gemini Omni Flash，串接高速圖片與互動式影片生成圖片摘要

03 / 科學研究工具

Claude Science 整合研究工具、運算資源與可追溯產物，讓科學分析集中在單一工作台

Anthropic 推出 Claude Science beta，把文獻分析、資料處理、圖表、論文撰寫與運算資源集中到同一個研究工作台。它預先整合 60 多項生命科學研究技能與工具連接器，可在 macOS、Linux、本機、SSH 或 HPC 登入節點執行，並保留產物程式碼、環境與完整操作歷程。系統另有審查 agent 檢查引用與計算。研究團隊導入時可先用可重現的既有分析重跑，檢查資料是否留在原有基礎設施、權限核准與結果追溯是否符合實驗規範。

關鍵影響：先用既有分析驗證權限與結果可重現性

來源：Claude Science, an AI workbench for scientists, is now available

Claude Science 整合研究工具、運算資源與可追溯產物，讓科學分析集中在單一工作台圖片摘要

04 / 開源模型

LongCat-2.0 開源 1.6 兆參數 MoE，以稀疏注意力支援百萬 token agent 任務

美團 LongCat 團隊發布並開源 LongCat-2.0。這個 MoE 模型共有 1.6 兆參數，每個 token 約啟用 480 億參數，並以 LongCat Sparse Attention、跨層索引與分層索引降低超長上下文成本。官方表示模型在超過 5 萬張中國製 AI 加速器上完成訓練，使用逾 35 兆 tokens，並針對百萬 token 上下文與 coding agent 工作流訓練。部署前應先確認權重、推論框架與硬體需求，再用自家程式碼庫測試長任務完成率與記憶體成本。

關鍵影響：先驗證推論硬體與長任務記憶體成本

來源：Introducing LongCat-2.0

LongCat-2.0 開源 1.6 兆參數 MoE，以稀疏注意力支援百萬 token agent 任務圖片摘要

05 / AI 評測

OpenAI 發布 GeneBench-Pro，評測 AI agent 處理真實生物資料的判斷能力

OpenAI 發布 GeneBench-Pro，用 129 個計算生物問題測量 AI agent 面對雜亂資料、模糊條件與研究決策時，能否選擇分析方法、修正假設並產出可用結論。每題提供隔離工作區、資料檔與標準生物資訊工具，並依已知答案確定性評分。官方結果中，GPT-5.6 Sol Pro 通過率為 31.5%，顯示目前模型進入實際研究流程時仍需由研究者審核。團隊可把這類評測拆成資料檢查、方法選擇與結果判斷，建立自己的科學 agent 驗證門檻。

關鍵影響：把資料檢查與方法選擇納入 agent 評測

來源：Introducing GeneBench-Pro

OpenAI 發布 GeneBench-Pro，評測 AI agent 處理真實生物資料的判斷能力圖片摘要