Daily Briefing
2026-06-09 AI Daily
今天 AI 重點是把模型與 agent 接進可驗證的真實工作流 5 則 AI 技術與產品重點:Apple 第三代 Foundation Models 用稀疏啟動把端上 AI 推向更大模型、Cognition 推出 FrontierCode,評估 AI 產碼是否真的可合併、Anthropic Red Team 量測 LLM 對 N-day exploit 開發的加速效果、Anthropic 指出生物資料 agent 需要 deterministic retrieval layer、Nex AGI 開源 Nex-N2-Pro,主打長流程 agentic coding 與 tool use
01 / 端上模型
Apple 第三代 Foundation Models 用稀疏啟動把端上 AI 推向更大模型
Apple 發布第三代 Apple Foundation Models,重點是 AFM 3 Core Advanced 以 20B 參數的稀疏架構服務端上任務,每次依請求啟動約 1B 到 4B 參數,並透過 flash memory 與 DRAM 間的專家載入策略降低記憶體壓力。雲端側則新增 AFM 3 Cloud、ADM 3 Cloud 與 AFM 3 Cloud Pro,延續 Private Cloud Compute 的資料保護設計。做 iOS、macOS 或端側 AI 產品時,可以把模型能力拆成本機即時任務、隱私敏感任務與高複雜雲端任務,再依硬體等級設計降級路徑。
關鍵影響:先拆本機與雲端任務
來源:Apple Machine Learning Research - Introducing the Third Generation of Apple’s Foundation Models
02 / 程式評測
Cognition 推出 FrontierCode,評估 AI 產碼是否真的可合併
Cognition 發布 FrontierCode benchmark,把 AI coding 評測從功能正確推向 production code quality。它邀請 20 多位開源維護者設計真實任務,評分包含 correctness、test quality、scope discipline、style 與 codebase standards,並用 blocker criteria 判斷 PR 是否可被維護者接受。導入 coding agent 時,可以把 eval 指標從只跑測試擴展到可合併性,並把團隊 code review rubric 變成 agent 交付前的自動檢查。
關鍵影響:把 review 標準寫進 eval
來源:Cognition - Introducing FrontierCode
03 / AI 資安
Anthropic Red Team 量測 LLM 對 N-day exploit 開發的加速效果
Anthropic Red Team 發布 N-day exploit 評估,關注已公開但仍未完整修補的漏洞,量測 LLM 是否會加速漏洞分析、利用鏈建立與自動化攻擊流程。這類研究的重點在於把資安風險拆成可觀測步驟,讓模型能力、工具使用與防禦流程能被同時檢查。安全團隊可以把 N-day patch 管理、PoC 偵測、攻擊面排序與模型輔助分析放進同一套演練。
關鍵影響:把 N-day 納入演練
來源:Anthropic Red Team - Measuring LLMs’ impact on N-day exploits
04 / 科學 Agent
Anthropic 指出生物資料 agent 需要 deterministic retrieval layer
Anthropic 研究文章以 NCBI Virus 資料擷取為案例,測試 Claude、Biomni OSS、Edison Analysis 與 GPT 等 scientific research agents。結果顯示,單靠模型瀏覽與推理很難穩定建構可靠資料集,但加入 gget virus 這類 deterministic retrieval layer 後,準確率可提升到接近 100%。做科學或醫療資料 agent 時,可以先把資料庫查詢、版本、欄位、過濾條件與驗證規則封裝成確定性工具,再讓模型負責規劃與解釋。
關鍵影響:先封裝資料擷取規則
來源:Anthropic - Paving the way for agents in biology
05 / 開源模型
Nex AGI 開源 Nex-N2-Pro,主打長流程 agentic coding 與 tool use
Nex AGI 在 Hugging Face 發布 Nex-N2-Pro model card,定位為面向真實生產力場景的 agentic model。Nex-N2-Pro 基於 Qwen3.5-397B-A17B,採 Apache 2.0,模型卡提供 Transformers、vLLM、SGLang、Docker 與 function calling 使用方式,並列出 BrowseComp、GDPval、Toolathlon、SWE-Bench Pro 與 Terminal-Bench 等結果。評估開源 agent 模型時,可以同時看任務完成率、部署硬體、tool parser、reasoning parser 與長流程穩定性。
關鍵影響:評估模型時看部署路徑
來源:Hugging Face - nex-agi/Nex-N2-Pro