Daily Briefing
2026-06-24 AI Daily
AI 工具正把長任務、文件解析與代理執行帶進正式工作流,API 穩定性、執行隔離與供應鏈稽核開始同等重要。 4 則 AI 技術與產品重點:Google Interactions API 正式版整合模型與代理,長任務改用背景執行、Unit 42 找到 5 個繞過掃描的 ClawHub 惡意 skill,代理供應鏈需加人工稽核、Unlimited OCR 用固定 KV cache,一次解析數十頁文件、NVIDIA Agent Toolkit 串起模型、skill 與安全執行環境
01 / 開發工具
Google Interactions API 正式版整合模型與代理,長任務改用背景執行
Google 將 Interactions API 推進正式版,並設為 Gemini 模型與代理的主要介面。開發者可用同一端點傳入模型 ID 或代理 ID,長任務則以背景執行非同步處理。新版加入穩定 schema、Managed Agents、工具混用與 Deep Research 更新,舊有 generateContent 仍會持續支援。團隊可先用 migration guide 對照欄位,再把新專案與長時間工作流移到新介面。
關鍵影響:先用 migration guide 對照欄位再遷移
來源:Interactions API: our primary interface for Gemini models and agents
02 / AI 安全
Unit 42 找到 5 個繞過掃描的 ClawHub 惡意 skill,代理供應鏈需加人工稽核
Unit 42 公布 ClawHub 調查,在已有 VirusTotal 與 ClawScan 的情況下,仍找到 5 個未被攔下的惡意 skill。攻擊包含 macOS 竊資程式、用 22 MB 填充內容避開掃描門檻,以及讓代理動態置入分潤連結或參與代幣搶先交易。團隊導入第三方 skill 前,可核對發布者、逐行檢查來源檔,並監看外連是否符合文件,讓代理憑證與執行權限維持最小範圍。
關鍵影響:安裝 skill 前查發布者、來源檔與外連
來源:OpenClaw’s Skill Marketplace and the Emerging AI Supply Chain Threat
03 / 文件 AI
Unlimited OCR 用固定 KV cache,一次解析數十頁文件
百度開源 Unlimited OCR,將解碼器的注意力層改成 Reference Sliding Window Attention,讓輸出持續變長時,KV cache 仍維持固定大小,降低長文件生成的記憶體與速度壓力。官方技術報告宣稱,在標準 32K 最大長度下可用單次 forward pass 轉錄數十頁文件,模型權重與推論程式已公開。導入前可用自家 PDF 測試頁面順序、表格還原、記憶體占用與長段落錯誤累積。
關鍵影響:用自家長 PDF 測準確度與記憶體占用
來源:baidu/Unlimited-OCR: Unlimited OCR Works
04 / AI 基礎設施
NVIDIA Agent Toolkit 串起模型、skill 與安全執行環境
NVIDIA 發表 Agent Toolkit,把可客製的 Nemotron 開放模型、NemoClaw 代理藍圖與 OpenShell 安全執行環境整理成模組化基礎,並可搭配 Hermes Agents、OpenClaw 等第三方代理框架。這套組合把推理模型、工具與 skill、執行環境分開選擇,讓團隊能依工作流替換元件。評估時可先固定一個高價值任務,分別量測模型品質、工具權限、執行隔離、延遲與成本。
關鍵影響:用單一任務分開驗證模型、權限與隔離
來源:How Businesses Are Building Specialized AI They Can Trust