Daily Briefing

2026-06-09 AI Daily

今天 AI 重點是把模型與 agent 接進可驗證的真實工作流 5 則 AI 技術與產品重點：Apple 第三代 Foundation Models 用稀疏啟動把端上 AI 推向更大模型、Cognition 推出 FrontierCode，評估 AI 產碼是否真的可合併、Anthropic Red Team 量測 LLM 對 N-day exploit 開發的加速效果、Anthropic 指出生物資料 agent 需要 deterministic retrieval layer、Nex AGI 開源 Nex-N2-Pro，主打長流程 agentic coding 與 tool use

Threads Instagram

01 / 端上模型

Apple 第三代 Foundation Models 用稀疏啟動把端上 AI 推向更大模型

Apple 發布第三代 Apple Foundation Models，重點是 AFM 3 Core Advanced 以 20B 參數的稀疏架構服務端上任務，每次依請求啟動約 1B 到 4B 參數，並透過 flash memory 與 DRAM 間的專家載入策略降低記憶體壓力。雲端側則新增 AFM 3 Cloud、ADM 3 Cloud 與 AFM 3 Cloud Pro，延續 Private Cloud Compute 的資料保護設計。做 iOS、macOS 或端側 AI 產品時，可以把模型能力拆成本機即時任務、隱私敏感任務與高複雜雲端任務，再依硬體等級設計降級路徑。

關鍵影響：先拆本機與雲端任務

來源：Apple Machine Learning Research - Introducing the Third Generation of Apple’s Foundation Models

Apple 第三代 Foundation Models 用稀疏啟動把端上 AI 推向更大模型圖片摘要

02 / 程式評測

Cognition 推出 FrontierCode，評估 AI 產碼是否真的可合併

Cognition 發布 FrontierCode benchmark，把 AI coding 評測從功能正確推向 production code quality。它邀請 20 多位開源維護者設計真實任務，評分包含 correctness、test quality、scope discipline、style 與 codebase standards，並用 blocker criteria 判斷 PR 是否可被維護者接受。導入 coding agent 時，可以把 eval 指標從只跑測試擴展到可合併性，並把團隊 code review rubric 變成 agent 交付前的自動檢查。

關鍵影響：把 review 標準寫進 eval

來源：Cognition - Introducing FrontierCode

Cognition 推出 FrontierCode，評估 AI 產碼是否真的可合併圖片摘要

03 / AI 資安

Anthropic Red Team 量測 LLM 對 N-day exploit 開發的加速效果

Anthropic Red Team 發布 N-day exploit 評估，關注已公開但仍未完整修補的漏洞，量測 LLM 是否會加速漏洞分析、利用鏈建立與自動化攻擊流程。這類研究的重點在於把資安風險拆成可觀測步驟，讓模型能力、工具使用與防禦流程能被同時檢查。安全團隊可以把 N-day patch 管理、PoC 偵測、攻擊面排序與模型輔助分析放進同一套演練。

關鍵影響：把 N-day 納入演練

來源：Anthropic Red Team - Measuring LLMs’ impact on N-day exploits

Anthropic Red Team 量測 LLM 對 N-day exploit 開發的加速效果圖片摘要

04 / 科學 Agent

Anthropic 指出生物資料 agent 需要 deterministic retrieval layer

Anthropic 研究文章以 NCBI Virus 資料擷取為案例，測試 Claude、Biomni OSS、Edison Analysis 與 GPT 等 scientific research agents。結果顯示，單靠模型瀏覽與推理很難穩定建構可靠資料集，但加入 gget virus 這類 deterministic retrieval layer 後，準確率可提升到接近 100%。做科學或醫療資料 agent 時，可以先把資料庫查詢、版本、欄位、過濾條件與驗證規則封裝成確定性工具，再讓模型負責規劃與解釋。

關鍵影響：先封裝資料擷取規則

來源：Anthropic - Paving the way for agents in biology

Anthropic 指出生物資料 agent 需要 deterministic retrieval layer 圖片摘要

05 / 開源模型

Nex AGI 開源 Nex-N2-Pro，主打長流程 agentic coding 與 tool use

Nex AGI 在 Hugging Face 發布 Nex-N2-Pro model card，定位為面向真實生產力場景的 agentic model。Nex-N2-Pro 基於 Qwen3.5-397B-A17B，採 Apache 2.0，模型卡提供 Transformers、vLLM、SGLang、Docker 與 function calling 使用方式，並列出 BrowseComp、GDPval、Toolathlon、SWE-Bench Pro 與 Terminal-Bench 等結果。評估開源 agent 模型時，可以同時看任務完成率、部署硬體、tool parser、reasoning parser 與長流程穩定性。

關鍵影響：評估模型時看部署路徑

來源：Hugging Face - nex-agi/Nex-N2-Pro

Nex AGI 開源 Nex-N2-Pro，主打長流程 agentic coding 與 tool use 圖片摘要