Daily Briefing

2026-06-09 AI Daily

今天 AI 重點是把模型與 agent 接進可驗證的真實工作流 5 則 AI 技術與產品重點:Apple 第三代 Foundation Models 用稀疏啟動把端上 AI 推向更大模型、Cognition 推出 FrontierCode,評估 AI 產碼是否真的可合併、Anthropic Red Team 量測 LLM 對 N-day exploit 開發的加速效果、Anthropic 指出生物資料 agent 需要 deterministic retrieval layer、Nex AGI 開源 Nex-N2-Pro,主打長流程 agentic coding 與 tool use

ThreadsInstagram

01 / 端上模型

Apple 第三代 Foundation Models 用稀疏啟動把端上 AI 推向更大模型

Apple 發布第三代 Apple Foundation Models,重點是 AFM 3 Core Advanced 以 20B 參數的稀疏架構服務端上任務,每次依請求啟動約 1B 到 4B 參數,並透過 flash memory 與 DRAM 間的專家載入策略降低記憶體壓力。雲端側則新增 AFM 3 Cloud、ADM 3 Cloud 與 AFM 3 Cloud Pro,延續 Private Cloud Compute 的資料保護設計。做 iOS、macOS 或端側 AI 產品時,可以把模型能力拆成本機即時任務、隱私敏感任務與高複雜雲端任務,再依硬體等級設計降級路徑。

關鍵影響:先拆本機與雲端任務

來源:Apple Machine Learning Research - Introducing the Third Generation of Apple’s Foundation Models

02 / 程式評測

Cognition 推出 FrontierCode,評估 AI 產碼是否真的可合併

Cognition 發布 FrontierCode benchmark,把 AI coding 評測從功能正確推向 production code quality。它邀請 20 多位開源維護者設計真實任務,評分包含 correctness、test quality、scope discipline、style 與 codebase standards,並用 blocker criteria 判斷 PR 是否可被維護者接受。導入 coding agent 時,可以把 eval 指標從只跑測試擴展到可合併性,並把團隊 code review rubric 變成 agent 交付前的自動檢查。

關鍵影響:把 review 標準寫進 eval

來源:Cognition - Introducing FrontierCode

03 / AI 資安

Anthropic Red Team 量測 LLM 對 N-day exploit 開發的加速效果

Anthropic Red Team 發布 N-day exploit 評估,關注已公開但仍未完整修補的漏洞,量測 LLM 是否會加速漏洞分析、利用鏈建立與自動化攻擊流程。這類研究的重點在於把資安風險拆成可觀測步驟,讓模型能力、工具使用與防禦流程能被同時檢查。安全團隊可以把 N-day patch 管理、PoC 偵測、攻擊面排序與模型輔助分析放進同一套演練。

關鍵影響:把 N-day 納入演練

來源:Anthropic Red Team - Measuring LLMs’ impact on N-day exploits

04 / 科學 Agent

Anthropic 指出生物資料 agent 需要 deterministic retrieval layer

Anthropic 研究文章以 NCBI Virus 資料擷取為案例,測試 Claude、Biomni OSS、Edison Analysis 與 GPT 等 scientific research agents。結果顯示,單靠模型瀏覽與推理很難穩定建構可靠資料集,但加入 gget virus 這類 deterministic retrieval layer 後,準確率可提升到接近 100%。做科學或醫療資料 agent 時,可以先把資料庫查詢、版本、欄位、過濾條件與驗證規則封裝成確定性工具,再讓模型負責規劃與解釋。

關鍵影響:先封裝資料擷取規則

來源:Anthropic - Paving the way for agents in biology

05 / 開源模型

Nex AGI 開源 Nex-N2-Pro,主打長流程 agentic coding 與 tool use

Nex AGI 在 Hugging Face 發布 Nex-N2-Pro model card,定位為面向真實生產力場景的 agentic model。Nex-N2-Pro 基於 Qwen3.5-397B-A17B,採 Apache 2.0,模型卡提供 Transformers、vLLM、SGLang、Docker 與 function calling 使用方式,並列出 BrowseComp、GDPval、Toolathlon、SWE-Bench Pro 與 Terminal-Bench 等結果。評估開源 agent 模型時,可以同時看任務完成率、部署硬體、tool parser、reasoning parser 與長流程穩定性。

關鍵影響:評估模型時看部署路徑

來源:Hugging Face - nex-agi/Nex-N2-Pro