Daily Briefing

2026-06-18 AI Daily

agent 走進真實工作流，評測、安全、知識格式與互動介面都在補工程層。 8 則 AI 技術與產品重點：OpenAI 化學 agent 提高藥物化學反應收率、OpenAI 用模擬部署預測模型上線風險、Google ARD 標準化 agent 工具發現、Anthropic 指出 Claude Code 更吃領域專業、Google OKF 讓 agent 知識可攜交換、OpenAI LifeSciBench 評測生命科學工作流、Gemini API 新增 TTS 串流、Google A2UI + MCP Apps 補上 agent 互動 UI

Threads Instagram

01 / 研究

OpenAI 化學 agent 提高藥物化學反應收率

OpenAI 與 Molecule.one 把 GPT-5.4 接到 Maria 高通量實驗室，讓系統提出研究假設、設計實驗、分析結果，再由人類化學家審核與複驗。這次針對 Chan-Lam coupling 中較難處理的 primary sulfonamides，模型提出 TEMPO 類添加劑，兩輪實驗後讓 88% boronic acids 與 83% sulfonamides 的測試組合收率改善。這代表 AI 已能參與「提出假設到實驗驗證」的研究循環，下一步要看獨立實驗室能否重現。

關鍵影響：先看獨立複驗

來源：OpenAI - A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry

02 / 安全評測

OpenAI 用模擬部署預測模型上線風險

OpenAI 發表 Deployment Simulation，做法是在保護隱私前提下，取近期部署對話的前文，移除舊模型回覆，再讓候選模型重新回答，用來預測新模型上線後可能出現的不良行為與頻率。OpenAI 表示這套方法已用在多個 GPT-5 系列 Thinking 部署，能補足傳統紅隊與合成題目的代表性不足，也可在上線後用實際流量校準預測。對模型發布流程來說，重點是把 safety eval 從「找案例」推進到「估計部署分布中的發生率」。

關鍵影響：用真實分布補 eval

來源：OpenAI - Predicting model behavior before release by simulating deployment

03 / Agent 標準

Google ARD 標準化 agent 工具發現

Google 宣布 Agentic Resource Discovery 開放規格，目標是讓工具、skills、MCP servers、OpenAPI tools 與其他 agents 能在組織自己的網域下發布 catalog，再由 registry 搜尋與回傳可驗證的信任 metadata。這是在解決 agent 生態系的發現與治理問題：能力要找得到，也要能確認發布者與連線安全。對企業 agent 平台來說，ARD 會把「工具註冊表」從單一平台功能推向可互通的網路層。

關鍵影響：預留 agent 發現層

來源：Google Developers Blog - Announcing the Agentic Resource Discovery specification

04 / 開發工具研究

Anthropic 指出 Claude Code 更吃領域專業

Anthropic 以隱私保護方式分析約 40 萬個 Claude Code session，觀察互動式 coding agent 在真實使用中的分工。報告指出，使用者平均負責約 70% 規劃決策，Claude 負責約 80% 執行決策。領域越熟的使用者，每次指令能讓 Claude 做更多事，也更容易把卡住的 session 拉回成功。這對導入 coding agent 的團隊很實際：訓練重點不只是提示技巧，而是讓熟悉業務問題的人能把需求、驗收與修正訊號講清楚。

關鍵影響：讓領域專家參與驗收

來源：Anthropic - Agentic coding and persistent returns to expertise

05 / 知識格式

Google OKF 讓 agent 知識可攜交換

Google Cloud 介紹 Open Knowledge Format v0.1，把 LLM wiki 模式整理成開放格式：每個概念是一個 Markdown 檔，並用 YAML metadata 記錄類型、來源與標籤。這讓資料表、指標、runbook、API 與內部知識可以像程式碼一樣版本管理，也能被不同 agent 讀取與更新。對企業 AI 團隊來說，OKF 的價值在於把 RAG 與 agent context 從單一工具搬到可攜的知識合約。

關鍵影響：把知識納入版本管理

來源：Google Cloud Blog - Introducing the Open Knowledge Format

06 / 科學評測

OpenAI LifeSciBench 評測生命科學工作流

OpenAI 推出 LifeSciBench，針對生命科學研究中常見的證據整理、分析、設計最佳化、科學推理、驗證作業、轉譯與科學溝通建立評測。這個 benchmark 包含 750 個專家撰寫任務、1,062 個 artifacts，並由 453 位專家審查者建立細緻評分規準。它評估模型能不能在不完整證據、實驗限制與研究判斷中提出可用答案，適合用來檢查科學 AI 是否真的能支援工作流。

關鍵影響：看工作流任務表現

來源：OpenAI - Introducing LifeSciBench

07 / Gemini API

Gemini API 新增 TTS 串流

Google 在 Gemini API release notes 更新，`gemini-3.1-flash-tts-preview` 開始支援語音生成串流，可透過 `streamGenerateContent` 或 Interactions API 的 `stream: true` 使用。語音助理、客服、陪練與即時播報工具可以先播放已生成片段，再接續後面的語音輸出，降低等待時間。開發者評估時要同步量測延遲、打斷處理與語音片段銜接品質。

關鍵影響：語音產品要重測延遲與打斷體驗

來源：Google AI for Developers - Gemini API Release notes

08 / Agent UI

Google A2UI + MCP Apps 補上 agent 互動 UI

Google A2UI team 與 MCP UI 共同整理 A2UI + MCP Apps 的整合模式，說明如何在 MCP 工具回傳中交付 `application/a2ui+json`，讓 host 以自己的設計系統渲染表單、卡片與資料視覺化，也能在需要複雜狀態時嵌入 MCP App。這代表 agent 工具輸出不必只停在文字或 iframe，產品團隊可以把工具結果接進更一致、更可控的原生 UI，但仍要設計信任元件、事件同步與安全邊界。

關鍵影響：劃定嵌入安全邊界

來源：Google Developers Blog - A2UI + MCP Apps: Combining the best of declarative and custom agentic UIs

Google A2UI + MCP Apps 補上 agent 互動 UI 圖片摘要