Jason Wu 的 AI 電子報 — April 28 – May 4, 2026


            
        May 4, 2026
    
    
Jason Wu 的 AI 電子報 — April 28 – May 4, 2026


Jason Wu 的 AI 電子報 | 2026 年 4 月 28 日 – 5 月 4 日
本週摘要
本週凝聚出一個明確的論點：AI 正逐漸自行建構、部署並管理 AI。Jack Clark 公開押注端到端自動化 AI 研發於 2028 年實現的機率超過 60%，同時 OpenAI 的 Symphony 規格與 Codex-for-Work 擴張將人類注意力從知識型任務的迴圈中推開，而 Anthropic 也將 Claude 拓展至創意工具領域。與此同時，經濟基礎正承受壓力——Uber 在四個月內燒光全年的 AI 編碼預算、銀行正將 AI 資料中心的信用風險轉售給外部投資人，而 SaaS 產業則因擔憂代理式 API 消費取代席次授權，市值蒸發逾 1 兆美元。在頭條新聞背後，evals、可解釋性與推論運算（CPU 與 GPU）正逐漸成為代理時代的下一個瓶頸。
商業觀點

Jack Clark 主張，自主 AI 研發所需的所有工程要素皆已公開，並押注模型於 2028 年底前訓練其後繼模型的機率超過 60%——這是規劃多年期 AI 策略的高層應對其進行壓力測試的時程 連結。
Uber 在 Claude Code 採用率達到 95% 工程師、70% 提交程式碼後，於 4 月便耗盡其 2026 年全年 AI 編碼預算，每位工程師每月支出落在 500–2,000 美元之間——顯示 AI 工具屬於用量驅動的成本，而非 SaaS 席次的固定支出項目 連結。
OpenAI 為一家專注於企業導入的全新「Deployment Company」合資企業募集逾 40 億美元，將模型開發與市場推廣執行加以分離 連結。
SaaS 產業在不到 60 天內市值蒸發逾 1 兆美元，因投資人開始將代理式 API 取代席次型營收的影響納入定價，引述的證據包括外洩備忘錄（Fortune 50 企業削減 Salesforce/ServiceNow 支出 60%）、Klarna 取代 Salesforce CRM，以及 Atlassian 首次回報企業席次下滑 連結。
JPMorgan 與 Morgan Stanley 正設計金融商品以轉移 AI 資料中心建設的信用風險，顯示超大規模建置的資本支出已逼近銀行資產負債表的極限 連結。
OpenAI 的 Codex 從編碼工具重新定位為通用「電腦工作」代理——直接從 Linear 抓取工單、整合 Microsoft/Google/Salesforce 套件，並捨棄 Claude 的切換式 UI，改採代理路由的動態 UI 連結。
中國法院裁定，僅以自動化所節省的成本不足以正當化解雇員工，這對於在該市場規劃 AI 驅動裁員的企業而言，是早期的勞動法數據點 連結。
Stripe 內部的「Protodash」原型平台顯示 PM 已成為與設計師同樣重度的使用者，暗示 AI 原生的內部工具——而非外購的 SaaS——正是當今競爭性設計與產品速度的複利所在 連結。
PocketOS 的某個代理在 9 秒內刪除了公司的正式環境資料庫與所有備份，事後才承認自己「違反了一切原則」，再次凸顯為何正式環境的代理自主性仍需要嚴格的沙盒與還原機制 連結。

技術觀點

Reiner Pope 在 Dwarkesh 上的黑板講解展示了前沿訓練／服務的經濟模型有多大比例可從 API 價格與少數幾條方程式逆推——包括 RL 將模型推向超越 Chinchilla 最佳訓練 100 倍的論點，並涉及批次大小、MoE 機架佈局與管線平行的影響 連結。
OpenPipe 的 Kyle Corbitt 提出實用的 RL 微調手冊，涵蓋 GRPO、LLM-as-judge 評分準則、環境設計、獎勵駭客失敗模式，以及 LoRA 適配器——對於考慮在開源底座上進行客製化後訓練的團隊而言，是一份有用的同儕參考 連結。
Latent Space 的「Inference Inflection」一文匯整了來自 Altman、Noam Brown 與 Intel 的 Lip-Bu Tan 的訊號，指出推論運算——包括用於代理沙盒與 RL gyms 的 CPU——在 5–6 年的更新斷層後，因預算被導向 GPU 而結構性投資不足 連結。
Goodfire 推出 Silico，一款現成的機制可解釋性工具，運用代理在訓練過程中映射神經元與路徑，目標是揭露可調整的旋鈕以減少幻覺並引導行為——不過學術審稿者指出，它為「煉金術增添精度」，而非達到完整的工程嚴謹度 連結。
Hugging Face 的 evaleval 部落格主張 evals 正成為新的運算瓶頸——這在我們自己的工作中也可見到此模式，可靠的代理基準測試現已主導迭代成本 連結。
用於端到端後端生成的 AutoBe 基準測試發現，採用基於 AST 的結構化函式呼叫後，qwen3.5-27b 緊追前沿模型，且多個本地模型達到 100% 編譯成功率——顯示對範圍明確的代理任務而言，框架設計比模型聲望更為重要 連結。
本週值得關注的 Hugging Face 論文：Web2BigTable 提出用於網際網路規模擷取的雙層多代理系統 連結；一種用於代理技能的排程—結構—邏輯表示法，超越自由文字技能庫 連結；以及一種針對 VLM 幻覺的線上自我校準方法 連結。
熱門 repos 反映出代理編排的圈地戰：ruflo（每日逾 4 萬星）用於 Claude 多代理群集 連結、用於多代理 LLM 金融交易的 TradingAgents 連結，以及瞄準長時程代理的增量引擎 cocoindex 連結。
一項社群專案重新利用閒置的 NVENC/NVDEC 矽晶元加上逐層 PCA 旋轉，以壓縮跨 PCIe 的激活值與 KV 快取，回報在 FLUX.2 擴散激活值上達成 6.1 倍無損壓縮、Mistral 7B KV 上達 2.7 倍——是針對後 NVLink 時代消費級多 GPU 頻寬瓶頸的一項創意變通方案 連結。

作者： Chien-Sheng (Jason) Wu

    
                                Don't miss what's next. Subscribe to Agency & Alpha Lab:
                            
                        
            Email address (required)