Daily Briefing
2026-07-01 AI Daily
今天 AI 新品把高效多模態、agent 執行與科學研究工作流一起推向可實際導入 5 則 AI 技術與產品重點:Claude Sonnet 5 強化 agent 與工具使用,以較低成本逼近 Opus 4.8、Google 推出 Nano Banana 2 Lite 與 Gemini Omni Flash,串接高速圖片與互動式影片生成、Claude Science 整合研究工具、運算資源與可追溯產物,讓科學分析集中在單一工作台、LongCat-2.0 開源 1.6 兆參數 MoE,以稀疏注意力支援百萬 token agent 任務、OpenAI 發布 GeneBench-Pro,評測 AI agent 處理真實生物資料的判斷能力
01 / 模型
Claude Sonnet 5 強化 agent 與工具使用,以較低成本逼近 Opus 4.8
Anthropic 發布 Claude Sonnet 5,強化規劃、瀏覽器與終端機工具使用,以及長時間自主完成任務的能力。官方評測顯示,它在部分 agent 搜尋與電腦操作設定可接近 Opus 4.8,並以每百萬輸入 2 美元、輸出 10 美元的上市優惠價供應至 8 月 31 日。模型已成為 Free 與 Pro 預設選項,也進入 Claude Code 與 API。團隊導入時可先以既有 agent 測試集比較完成率、延遲與總成本,再決定是否替換較大型模型。
關鍵影響:用既有 agent 測試集比較完成率與總成本
來源:Introducing Claude Sonnet 5
02 / 多模態模型
Google 推出 Nano Banana 2 Lite 與 Gemini Omni Flash,串接高速圖片與互動式影片生成
Google 同時推出 Nano Banana 2 Lite 與 Gemini Omni Flash。前者主打大量圖片工作流,官方標示 1K 圖片每張 0.034 美元、約 4 秒輸出。後者以文字、圖片與影片作為輸入,支援自然語言多輪編輯,現以公開預覽進入 Gemini API 與 AI Studio,影片輸出每秒 0.10 美元。開發者可透過 Interactions API 保留工作階段紀錄,串起先產圖、再轉成影片的流程。導入時應分別量測品質、延遲與多輪編輯的一致性。
關鍵影響:分開量測產圖延遲與影片編輯一致性
來源:Start building with Nano Banana 2 Lite and Gemini Omni Flash
03 / 科學研究工具
Claude Science 整合研究工具、運算資源與可追溯產物,讓科學分析集中在單一工作台
Anthropic 推出 Claude Science beta,把文獻分析、資料處理、圖表、論文撰寫與運算資源集中到同一個研究工作台。它預先整合 60 多項生命科學研究技能與工具連接器,可在 macOS、Linux、本機、SSH 或 HPC 登入節點執行,並保留產物程式碼、環境與完整操作歷程。系統另有審查 agent 檢查引用與計算。研究團隊導入時可先用可重現的既有分析重跑,檢查資料是否留在原有基礎設施、權限核准與結果追溯是否符合實驗規範。
關鍵影響:先用既有分析驗證權限與結果可重現性
來源:Claude Science, an AI workbench for scientists, is now available
04 / 開源模型
LongCat-2.0 開源 1.6 兆參數 MoE,以稀疏注意力支援百萬 token agent 任務
美團 LongCat 團隊發布並開源 LongCat-2.0。這個 MoE 模型共有 1.6 兆參數,每個 token 約啟用 480 億參數,並以 LongCat Sparse Attention、跨層索引與分層索引降低超長上下文成本。官方表示模型在超過 5 萬張中國製 AI 加速器上完成訓練,使用逾 35 兆 tokens,並針對百萬 token 上下文與 coding agent 工作流訓練。部署前應先確認權重、推論框架與硬體需求,再用自家程式碼庫測試長任務完成率與記憶體成本。
關鍵影響:先驗證推論硬體與長任務記憶體成本
05 / AI 評測
OpenAI 發布 GeneBench-Pro,評測 AI agent 處理真實生物資料的判斷能力
OpenAI 發布 GeneBench-Pro,用 129 個計算生物問題測量 AI agent 面對雜亂資料、模糊條件與研究決策時,能否選擇分析方法、修正假設並產出可用結論。每題提供隔離工作區、資料檔與標準生物資訊工具,並依已知答案確定性評分。官方結果中,GPT-5.6 Sol Pro 通過率為 31.5%,顯示目前模型進入實際研究流程時仍需由研究者審核。團隊可把這類評測拆成資料檢查、方法選擇與結果判斷,建立自己的科學 agent 驗證門檻。
關鍵影響:把資料檢查與方法選擇納入 agent 評測