Daily Briefing

2026-05-26 AI Daily

6 則 AI 技術與產品重點:BOHM 解釋 compound AI 的工具路由、RMA 挑戰研究級數學推理、EVE-Agent 讓自我演化有證據可查、IDS 讓 coding agent 生成可形式驗證系統、用 entropy 判斷 LLM 何時 reasoning、QASC 讓 RAG chunking 依查詢動態調整

ThreadsInstagram

01 / Agent

BOHM 解釋 compound AI 的工具路由

BOHM 聚焦 compound AI 與 agent orchestrator 的可解釋性。傳統 SHAP 需要評估大量元件組合,但第三方 API、黑箱工具與實際部署的 agent routing 常無法這樣測。BOHM 直接讀取系統已有的 routing weights,產生多層級 attribution tree,讓團隊看見任務如何被導向各工具或子系統。對 agent 平台、工具路由與企業審計團隊來說,這是一種較容易落地的觀測方法。

關鍵影響:compound AI 需要工具層級的貢獻解釋

來源:arXiv - BOHM: Zero-Cost Hierarchical Attribution for Compound AI Systems

02 / Agent

RMA 挑戰研究級數學推理

RMA 提出 Research Math Agents,目標不是解競賽題,而是處理需要長程推理、文獻 grounding 與反覆修正的研究級數學問題。系統把任務拆成問題分析、文獻搜尋、知識庫建立、proof verification 等模組,再由 initializer、proposer、verifier agents 協作。它的重要性在於把 AI for math 往研究工作流推進,並強調共享結構化記憶與驗證回饋。

關鍵影響:高難推理 agent 會越來越依賴工作流與驗證設計

來源:arXiv - RMA: an Agentic System for Research-Level Mathematical Problems

03 / Agent

EVE-Agent 讓自我演化有證據可查

EVE-Agent 處理 self-evolving search agent 的核心風險:模型自己出題、回答並學習時,可能把流暢但無根據的內容變成訓練訊號。這篇研究要求每個自生成樣本都附上可追溯的 evidence span,並用 evidence verifier 評估該證據對答案的實際幫助。它讓自我演化流程不只看答案對錯,也把資料來源與可稽核性放進學習迴圈。

關鍵影響:agent 自我改進需要把證據與審計一起設計進流程

來源:arXiv - EVE-Agent: Evidence-Verifiable Self-Evolving Agents

04 / Coding

IDS 讓 coding agent 生成可形式驗證系統

Inductive Deductive Synthesis 針對 coding agent 的短板:測試能找到部分錯誤,但無法保證分散式系統在所有 interleaving 下都正確。研究把 implementation synthesis 與 proof synthesis 放在同一個 agentic loop 裡,並從失敗嘗試中學習下一步策略。論文宣稱在分散式 key-value-store 規格上達成 7/7,顯示 coding agent 的下一步可能是可驗證的軟體生成。

關鍵影響:AI coding 正走向形式保證與可驗證軟體

來源:arXiv - Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

05 / Inference

用 entropy 判斷 LLM 何時 reasoning

When Do LLMs Reason? 指出 Chain-of-Thought 不該預設套用在所有任務,因為它常增加 token 成本,對事實型或開放式任務未必有益。研究用 early-stage entropy dynamics 判斷模型是否進入有利於 reasoning 的狀態,再透過 EDRM 動態選擇 inference strategy。對產品來說,reasoning model 的成本控制不只靠小模型,也靠判斷什麼時候該思考更久。

關鍵影響:推理成本會走向動態路由與即時判斷

來源:arXiv - When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

06 / RAG

QASC 讓 RAG chunking 依查詢動態調整

Query-Adaptive Semantic Chunking 針對 RAG 的常見工程問題:固定 chunking 很容易在 precision 與 recall 之間卡住,semantic chunking 也常在切分時忽略使用者問題。QASC 先用 query 與句子的相似度找 seed sentences,再向前後擴展 context window,最後做 chunk-level scoring。研究在技術文件查詢上回報 F1 0.85,對知識庫、客服與內部文件助理都有直接參考價值。

關鍵影響:RAG 檢索品質需要從切分階段就納入查詢意圖

來源:arXiv - Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation