Daily Briefing
2026-05-26 AI Daily
6 則 AI 技術與產品重點:BOHM 解釋 compound AI 的工具路由、RMA 挑戰研究級數學推理、EVE-Agent 讓自我演化有證據可查、IDS 讓 coding agent 生成可形式驗證系統、用 entropy 判斷 LLM 何時 reasoning、QASC 讓 RAG chunking 依查詢動態調整
01 / Agent
BOHM 解釋 compound AI 的工具路由
BOHM 聚焦 compound AI 與 agent orchestrator 的可解釋性。傳統 SHAP 需要評估大量元件組合,但第三方 API、黑箱工具與實際部署的 agent routing 常無法這樣測。BOHM 直接讀取系統已有的 routing weights,產生多層級 attribution tree,讓團隊看見任務如何被導向各工具或子系統。對 agent 平台、工具路由與企業審計團隊來說,這是一種較容易落地的觀測方法。
關鍵影響:compound AI 需要工具層級的貢獻解釋
來源:arXiv - BOHM: Zero-Cost Hierarchical Attribution for Compound AI Systems
02 / Agent
RMA 挑戰研究級數學推理
RMA 提出 Research Math Agents,目標不是解競賽題,而是處理需要長程推理、文獻 grounding 與反覆修正的研究級數學問題。系統把任務拆成問題分析、文獻搜尋、知識庫建立、proof verification 等模組,再由 initializer、proposer、verifier agents 協作。它的重要性在於把 AI for math 往研究工作流推進,並強調共享結構化記憶與驗證回饋。
關鍵影響:高難推理 agent 會越來越依賴工作流與驗證設計
來源:arXiv - RMA: an Agentic System for Research-Level Mathematical Problems
03 / Agent
EVE-Agent 讓自我演化有證據可查
EVE-Agent 處理 self-evolving search agent 的核心風險:模型自己出題、回答並學習時,可能把流暢但無根據的內容變成訓練訊號。這篇研究要求每個自生成樣本都附上可追溯的 evidence span,並用 evidence verifier 評估該證據對答案的實際幫助。它讓自我演化流程不只看答案對錯,也把資料來源與可稽核性放進學習迴圈。
關鍵影響:agent 自我改進需要把證據與審計一起設計進流程
來源:arXiv - EVE-Agent: Evidence-Verifiable Self-Evolving Agents
04 / Coding
IDS 讓 coding agent 生成可形式驗證系統
Inductive Deductive Synthesis 針對 coding agent 的短板:測試能找到部分錯誤,但無法保證分散式系統在所有 interleaving 下都正確。研究把 implementation synthesis 與 proof synthesis 放在同一個 agentic loop 裡,並從失敗嘗試中學習下一步策略。論文宣稱在分散式 key-value-store 規格上達成 7/7,顯示 coding agent 的下一步可能是可驗證的軟體生成。
關鍵影響:AI coding 正走向形式保證與可驗證軟體
來源:arXiv - Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems
05 / Inference
用 entropy 判斷 LLM 何時 reasoning
When Do LLMs Reason? 指出 Chain-of-Thought 不該預設套用在所有任務,因為它常增加 token 成本,對事實型或開放式任務未必有益。研究用 early-stage entropy dynamics 判斷模型是否進入有利於 reasoning 的狀態,再透過 EDRM 動態選擇 inference strategy。對產品來說,reasoning model 的成本控制不只靠小模型,也靠判斷什麼時候該思考更久。
關鍵影響:推理成本會走向動態路由與即時判斷
來源:arXiv - When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions
06 / RAG
QASC 讓 RAG chunking 依查詢動態調整
Query-Adaptive Semantic Chunking 針對 RAG 的常見工程問題:固定 chunking 很容易在 precision 與 recall 之間卡住,semantic chunking 也常在切分時忽略使用者問題。QASC 先用 query 與句子的相似度找 seed sentences,再向前後擴展 context window,最後做 chunk-level scoring。研究在技術文件查詢上回報 F1 0.85,對知識庫、客服與內部文件助理都有直接參考價值。
關鍵影響:RAG 檢索品質需要從切分階段就納入查詢意圖
來源:arXiv - Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation