Daily Briefing

2026-05-30 AI Daily

7 則 AI 技術與產品重點:StepFun 發布 Step 3.7 Flash、X Square Robot 開源 WALL-WM、Jasper 開源 MONET image dataset、LLMSurgeon 檢查 LLM 訓練資料配方、DirectorBench 評測長影片生成流程、CRITIC-R1 讓 RAG 評估變成錯誤診斷、研究用 TGL 降低 proactive agent 呼叫成本

ThreadsInstagram

01 / Model

StepFun 發布 Step 3.7 Flash

StepFun 發布 Step 3.7 Flash,定位是高效率 real-world agent model。官方資料顯示模型採 196B sparse MoE,強調 multimodal understanding、web 與 visual search、可靠 tool use 與主流 agent harness 相容。對開發者來說,重點是用較低任務成本支撐 coding、搜尋、文件與企業流程自動化。

關鍵影響:agent model 競爭會從能力延伸到任務成本與工具穩定性

來源:StepFun - Step 3.7 Flash

02 / Robotics

X Square Robot 開源 WALL-WM

X Square Robot 開源 WALL-WM,這是一個面向 general-purpose embodied AI 的 World Action Model。核心做法是把機器人任務切成 reach、grasp、lift、move、place 等 action-grounded semantic events,再用語言、影像與動作對齊。對 robotics 團隊來說,這提供了更貼近物理變化的 world model 訓練路徑。

關鍵影響:embodied AI 會更重視可執行事件,而不是固定長度影片片段

來源:PR Newswire - X Square Robot Open-Sources WALL-WM

03 / Dataset

Jasper 開源 MONET image dataset

Jasper 在 Hugging Face 發布 MONET,開源 104.9M image-text dataset,並搭配 nano-t2i 訓練程式與資料處理流程。資料管線包含來源過濾、captioning、domain filtering 與 governance,並用 CLIP 分析題材分布。對影像生成研究者來說,價值在於可重現的資料篩選與訓練基線。

關鍵影響:影像模型研究的門檻正在從模型權重轉向高品質資料管線

來源:Hugging Face - MONET

04 / Evaluation

LLMSurgeon 檢查 LLM 訓練資料配方

LLMSurgeon 提出 Data Mixture Surgery,目標是在只看到目標 LLM 生成文字的情況下,估計其 pretraining corpus 的 domain-level distribution。論文把資料配方稱為模型的 digital DNA,並提供 LLMScan 評測。對模型採購與治理團隊來說,這類工具可用來補足訓練資料透明度不足的稽核缺口。

關鍵影響:模型稽核會更常從輸出行為反推訓練資料組成

來源:arXiv - LLMSurgeon

05 / Video

DirectorBench 評測長影片生成流程

DirectorBench 針對 long-form video generation 提出個人化 multi-agent diagnostic benchmark。它用 80 個 metadata、7 種 user profile 與 40 個 checkpoint,分別檢查 script、visual、audio、cross-modal 與 stability。對影片生成產品來說,這比單一總分更能指出轉場、敘事與同步問題該如何修正。

關鍵影響:長影片生成需要診斷式評測,而不是只看整體品質分數

來源:arXiv - DirectorBench

06 / RAG

CRITIC-R1 讓 RAG 評估變成錯誤診斷

CRITIC-R1 把 RAG critique 明確建模成 error diagnosis problem,透過 reinforcement learning 訓練 structured critic。這個方向的重點,是讓評估結果指出 retrieval、evidence use、answer grounding 等具體錯誤,而不只回傳模糊分數。對企業 RAG 團隊來說,它能幫助把品質檢查接進迭代流程。

關鍵影響:RAG evaluation 會往可操作的錯誤分類與修復建議前進

來源:arXiv - CRITIC-R1

07 / Agent

研究用 TGL 降低 proactive agent 呼叫成本

一篇 proactive agent 研究主張,觸發時機與 anchor routing 可先交給小型 temporal graph learning model。系統把 always-on signal 視為 graph updates,一次 forward pass 產生 trigger probability 與 entity routing score,只有觸發後才呼叫 LLM 生成回覆。對個人助理與企業 agent 來說,這是降低延遲與推論成本的實作方向。

關鍵影響:proactive agent 可以先用輕量模型決定何時啟動 LLM

來源:arXiv - Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?