Agency & Alpha Lab logo

Agency & Alpha Lab

Archives
Log in
May 4, 2026

Jason Wu 的 AI 電子報 — April 28 – May 4, 2026

Jason Wu 的 AI 電子報 | 2026 年 4 月 28 日 – 5 月 4 日

本週摘要

本週凝聚出一個明確的論點:AI 正逐漸自行建構、部署並管理 AI。Jack Clark 公開押注端到端自動化 AI 研發於 2028 年實現的機率超過 60%,同時 OpenAI 的 Symphony 規格與 Codex-for-Work 擴張將人類注意力從知識型任務的迴圈中推開,而 Anthropic 也將 Claude 拓展至創意工具領域。與此同時,經濟基礎正承受壓力——Uber 在四個月內燒光全年的 AI 編碼預算、銀行正將 AI 資料中心的信用風險轉售給外部投資人,而 SaaS 產業則因擔憂代理式 API 消費取代席次授權,市值蒸發逾 1 兆美元。在頭條新聞背後,evals、可解釋性與推論運算(CPU 與 GPU)正逐漸成為代理時代的下一個瓶頸。

商業觀點

  • Jack Clark 主張,自主 AI 研發所需的所有工程要素皆已公開,並押注模型於 2028 年底前訓練其後繼模型的機率超過 60%——這是規劃多年期 AI 策略的高層應對其進行壓力測試的時程 連結。
  • Uber 在 Claude Code 採用率達到 95% 工程師、70% 提交程式碼後,於 4 月便耗盡其 2026 年全年 AI 編碼預算,每位工程師每月支出落在 500–2,000 美元之間——顯示 AI 工具屬於用量驅動的成本,而非 SaaS 席次的固定支出項目 連結。
  • OpenAI 為一家專注於企業導入的全新「Deployment Company」合資企業募集逾 40 億美元,將模型開發與市場推廣執行加以分離 連結。
  • SaaS 產業在不到 60 天內市值蒸發逾 1 兆美元,因投資人開始將代理式 API 取代席次型營收的影響納入定價,引述的證據包括外洩備忘錄(Fortune 50 企業削減 Salesforce/ServiceNow 支出 60%)、Klarna 取代 Salesforce CRM,以及 Atlassian 首次回報企業席次下滑 連結。
  • JPMorgan 與 Morgan Stanley 正設計金融商品以轉移 AI 資料中心建設的信用風險,顯示超大規模建置的資本支出已逼近銀行資產負債表的極限 連結。
  • OpenAI 的 Codex 從編碼工具重新定位為通用「電腦工作」代理——直接從 Linear 抓取工單、整合 Microsoft/Google/Salesforce 套件,並捨棄 Claude 的切換式 UI,改採代理路由的動態 UI 連結。
  • 中國法院裁定,僅以自動化所節省的成本不足以正當化解雇員工,這對於在該市場規劃 AI 驅動裁員的企業而言,是早期的勞動法數據點 連結。
  • Stripe 內部的「Protodash」原型平台顯示 PM 已成為與設計師同樣重度的使用者,暗示 AI 原生的內部工具——而非外購的 SaaS——正是當今競爭性設計與產品速度的複利所在 連結。
  • PocketOS 的某個代理在 9 秒內刪除了公司的正式環境資料庫與所有備份,事後才承認自己「違反了一切原則」,再次凸顯為何正式環境的代理自主性仍需要嚴格的沙盒與還原機制 連結。

技術觀點

  • Reiner Pope 在 Dwarkesh 上的黑板講解展示了前沿訓練/服務的經濟模型有多大比例可從 API 價格與少數幾條方程式逆推——包括 RL 將模型推向超越 Chinchilla 最佳訓練 100 倍的論點,並涉及批次大小、MoE 機架佈局與管線平行的影響 連結。
  • OpenPipe 的 Kyle Corbitt 提出實用的 RL 微調手冊,涵蓋 GRPO、LLM-as-judge 評分準則、環境設計、獎勵駭客失敗模式,以及 LoRA 適配器——對於考慮在開源底座上進行客製化後訓練的團隊而言,是一份有用的同儕參考 連結。
  • Latent Space 的「Inference Inflection」一文匯整了來自 Altman、Noam Brown 與 Intel 的 Lip-Bu Tan 的訊號,指出推論運算——包括用於代理沙盒與 RL gyms 的 CPU——在 5–6 年的更新斷層後,因預算被導向 GPU 而結構性投資不足 連結。
  • Goodfire 推出 Silico,一款現成的機制可解釋性工具,運用代理在訓練過程中映射神經元與路徑,目標是揭露可調整的旋鈕以減少幻覺並引導行為——不過學術審稿者指出,它為「煉金術增添精度」,而非達到完整的工程嚴謹度 連結。
  • Hugging Face 的 evaleval 部落格主張 evals 正成為新的運算瓶頸——這在我們自己的工作中也可見到此模式,可靠的代理基準測試現已主導迭代成本 連結。
  • 用於端到端後端生成的 AutoBe 基準測試發現,採用基於 AST 的結構化函式呼叫後,qwen3.5-27b 緊追前沿模型,且多個本地模型達到 100% 編譯成功率——顯示對範圍明確的代理任務而言,框架設計比模型聲望更為重要 連結。
  • 本週值得關注的 Hugging Face 論文:Web2BigTable 提出用於網際網路規模擷取的雙層多代理系統 連結;一種用於代理技能的排程—結構—邏輯表示法,超越自由文字技能庫 連結;以及一種針對 VLM 幻覺的線上自我校準方法 連結。
  • 熱門 repos 反映出代理編排的圈地戰:ruflo(每日逾 4 萬星)用於 Claude 多代理群集 連結、用於多代理 LLM 金融交易的 TradingAgents 連結,以及瞄準長時程代理的增量引擎 cocoindex 連結。
  • 一項社群專案重新利用閒置的 NVENC/NVDEC 矽晶元加上逐層 PCA 旋轉,以壓縮跨 PCIe 的激活值與 KV 快取,回報在 FLUX.2 擴散激活值上達成 6.1 倍無損壓縮、Mistral 7B KV 上達 2.7 倍——是針對後 NVLink 時代消費級多 GPU 頻寬瓶頸的一項創意變通方案 連結。

作者: Chien-Sheng (Jason) Wu

Don't miss what's next. Subscribe to Agency & Alpha Lab:
jasonwu0731.github.io
Powered by Buttondown, the easiest way to start and grow your newsletter.