Daily Briefing
2026-06-18 AI Daily
agent 走進真實工作流,評測、安全、知識格式與互動介面都在補工程層。 8 則 AI 技術與產品重點:OpenAI 化學 agent 提高藥物化學反應收率、OpenAI 用模擬部署預測模型上線風險、Google ARD 標準化 agent 工具發現、Anthropic 指出 Claude Code 更吃領域專業、Google OKF 讓 agent 知識可攜交換、OpenAI LifeSciBench 評測生命科學工作流、Gemini API 新增 TTS 串流、Google A2UI + MCP Apps 補上 agent 互動 UI
01 / 研究
OpenAI 化學 agent 提高藥物化學反應收率
OpenAI 與 Molecule.one 把 GPT-5.4 接到 Maria 高通量實驗室,讓系統提出研究假設、設計實驗、分析結果,再由人類化學家審核與複驗。這次針對 Chan-Lam coupling 中較難處理的 primary sulfonamides,模型提出 TEMPO 類添加劑,兩輪實驗後讓 88% boronic acids 與 83% sulfonamides 的測試組合收率改善。這代表 AI 已能參與「提出假設到實驗驗證」的研究循環,下一步要看獨立實驗室能否重現。
關鍵影響:先看獨立複驗
來源:OpenAI - A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry
02 / 安全評測
OpenAI 用模擬部署預測模型上線風險
OpenAI 發表 Deployment Simulation,做法是在保護隱私前提下,取近期部署對話的前文,移除舊模型回覆,再讓候選模型重新回答,用來預測新模型上線後可能出現的不良行為與頻率。OpenAI 表示這套方法已用在多個 GPT-5 系列 Thinking 部署,能補足傳統紅隊與合成題目的代表性不足,也可在上線後用實際流量校準預測。對模型發布流程來說,重點是把 safety eval 從「找案例」推進到「估計部署分布中的發生率」。
關鍵影響:用真實分布補 eval
來源:OpenAI - Predicting model behavior before release by simulating deployment
03 / Agent 標準
Google ARD 標準化 agent 工具發現
Google 宣布 Agentic Resource Discovery 開放規格,目標是讓工具、skills、MCP servers、OpenAPI tools 與其他 agents 能在組織自己的網域下發布 catalog,再由 registry 搜尋與回傳可驗證的信任 metadata。這是在解決 agent 生態系的發現與治理問題:能力要找得到,也要能確認發布者與連線安全。對企業 agent 平台來說,ARD 會把「工具註冊表」從單一平台功能推向可互通的網路層。
關鍵影響:預留 agent 發現層
來源:Google Developers Blog - Announcing the Agentic Resource Discovery specification
04 / 開發工具研究
Anthropic 指出 Claude Code 更吃領域專業
Anthropic 以隱私保護方式分析約 40 萬個 Claude Code session,觀察互動式 coding agent 在真實使用中的分工。報告指出,使用者平均負責約 70% 規劃決策,Claude 負責約 80% 執行決策。領域越熟的使用者,每次指令能讓 Claude 做更多事,也更容易把卡住的 session 拉回成功。這對導入 coding agent 的團隊很實際:訓練重點不只是提示技巧,而是讓熟悉業務問題的人能把需求、驗收與修正訊號講清楚。
關鍵影響:讓領域專家參與驗收
來源:Anthropic - Agentic coding and persistent returns to expertise
05 / 知識格式
Google OKF 讓 agent 知識可攜交換
Google Cloud 介紹 Open Knowledge Format v0.1,把 LLM wiki 模式整理成開放格式:每個概念是一個 Markdown 檔,並用 YAML metadata 記錄類型、來源與標籤。這讓資料表、指標、runbook、API 與內部知識可以像程式碼一樣版本管理,也能被不同 agent 讀取與更新。對企業 AI 團隊來說,OKF 的價值在於把 RAG 與 agent context 從單一工具搬到可攜的知識合約。
關鍵影響:把知識納入版本管理
來源:Google Cloud Blog - Introducing the Open Knowledge Format
06 / 科學評測
OpenAI LifeSciBench 評測生命科學工作流
OpenAI 推出 LifeSciBench,針對生命科學研究中常見的證據整理、分析、設計最佳化、科學推理、驗證作業、轉譯與科學溝通建立評測。這個 benchmark 包含 750 個專家撰寫任務、1,062 個 artifacts,並由 453 位專家審查者建立細緻評分規準。它評估模型能不能在不完整證據、實驗限制與研究判斷中提出可用答案,適合用來檢查科學 AI 是否真的能支援工作流。
關鍵影響:看工作流任務表現
來源:OpenAI - Introducing LifeSciBench
07 / Gemini API
Gemini API 新增 TTS 串流
Google 在 Gemini API release notes 更新,`gemini-3.1-flash-tts-preview` 開始支援語音生成串流,可透過 `streamGenerateContent` 或 Interactions API 的 `stream: true` 使用。語音助理、客服、陪練與即時播報工具可以先播放已生成片段,再接續後面的語音輸出,降低等待時間。開發者評估時要同步量測延遲、打斷處理與語音片段銜接品質。
關鍵影響:語音產品要重測延遲與打斷體驗
來源:Google AI for Developers - Gemini API Release notes
08 / Agent UI
Google A2UI + MCP Apps 補上 agent 互動 UI
Google A2UI team 與 MCP UI 共同整理 A2UI + MCP Apps 的整合模式,說明如何在 MCP 工具回傳中交付 `application/a2ui+json`,讓 host 以自己的設計系統渲染表單、卡片與資料視覺化,也能在需要複雜狀態時嵌入 MCP App。這代表 agent 工具輸出不必只停在文字或 iframe,產品團隊可以把工具結果接進更一致、更可控的原生 UI,但仍要設計信任元件、事件同步與安全邊界。
關鍵影響:劃定嵌入安全邊界
來源:Google Developers Blog - A2UI + MCP Apps: Combining the best of declarative and custom agentic UIs