Daily Briefing

2026-06-28 AI Daily

推論效率、代理工作型態與模型分級同步走向可量測、可選型與可治理 3 則 AI 技術與產品重點:GPT-5.6 分成 Sol、Terra、Luna 三層,能力、成本與速度各有定位、DeepSeek 開源 DSpark,以動態驗證減少推測式解碼浪費、Anthropic 用持續遙測拆解 Claude 的代理工作節奏與產出

ThreadsInstagram

01 / 模型安全

GPT-5.6 分成 Sol、Terra、Luna 三層,能力、成本與速度各有定位

OpenAI 公開 GPT-5.6 Preview System Card,將系列分成旗艦 Sol、較低成本的 Terra,以及速度最快且成本效率最高的 Luna,目前僅向少數合作夥伴限量預覽。三款模型在官方 Preparedness Framework 中都被列為資安與生物化學 High capability。Sol 與 Terra 另加入可在生成期間介入的 activation classifiers。團隊選型時應同時比較任務品質、延遲、成本與工具權限,並先在隔離環境測試高風險代理行為。

關鍵影響:用任務品質、延遲、成本與權限一起選型

來源:GPT-5.6 Preview System Card

02 / 推論

DeepSeek 開源 DSpark,以動態驗證減少推測式解碼浪費

DeepSeek 開源 DeepSpec 訓練與評測工具鏈,以及推測式解碼方法 DSpark。它先用平行骨幹產生草稿,再以輕量序列模組補上區塊內 token 相依性,並依接受機率與引擎負載動態決定驗證長度。官方論文指出,在相同整體吞吐量下,DeepSeek-V4 正式流量的單一使用者生成速度比 MTP-1 基準提升 57% 至 85%。推論團隊可先用自家硬體曲線與工作負載重測,再決定是否導入。

關鍵影響:用自家負載重測接受率、延遲與吞吐量

來源:DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation

03 / 使用研究

Anthropic 用持續遙測拆解 Claude 的代理工作節奏與產出

Anthropic 更新 Economic Index,改以隱私保護的持續抽樣觀察 Claude,並新增產出分類器。官方研究顯示,93% 的 chat 與 Cowork 對話會形成可分類成果,Claude Code 在多數產出類型的平均自主程度也更高。以部落格文章為例,Claude Code 中位數只需一次人工提示,chat 與 Cowork 則有 13 輪互動。團隊可依產品介面與產出類型,分開量測人工介入、品質與成本。

關鍵影響:依產品介面與產出類型分開量測自主程度

來源:Anthropic Economic Index report: Cadences