Claude Sonnet 4.5 拿下编程模型头把交椅

        April 13, 2026

Claude Sonnet 4.5 拿下编程模型头把交椅

Claude Sonnet 4.5 拿下编程模型头把交椅

  Claude Sonnet 4.5 拿下编程模型头把交椅

LoreAI
AI 日报

2026-04-13

Claude Sonnet 4.5 拿下编程模型头把交椅

发布动态
1Claude Sonnet 4.5 拿下编程模型头把交椅。
Anthropic 发布 Claude Sonnet 4.5 — 官方直接打出"全球最强编程模型"的旗号。核心卖点：复杂 Agent 构建能力大幅提升，代码生成和多步推理跑分全面领先。对开发者来说，这意味着你的 AI 编程搭档又升了一个档次 — 尤其是在需要 Agent 协作完成多步骤任务的场景下，Sonnet 4.5 的表现会明显不同。现在就可以在 Claude 和 Claude Code 里用上。（延伸阅读：为什么 Claude 写代码这么强？）(20,052 likes | 3,159 RTs) 详情 →
2ChatGPT 上线即时结账 — OpenAI 要当你的 AI 商城。
OpenAI 给 ChatGPT 加了 Instant Checkout 功能 — 聊着天就能下单买东西，不用跳转第三方。从"帮你找"到"帮你买"，OpenAI 在搜索和电商的十字路口选了电商。对中国开发者的启示：AI + 电商的闭环不再是概念，ChatGPT 已经跑通了从推荐到支付的完整链路。(10,284 likes | 1,310 RTs) 详情 →
3Mistral 开源语音识别模型，宣称性能 SOTA。
Mistral 放出开源语音识别模型，声称达到业界最优水平。开源 + SOTA 的组合拳对社区杀伤力最大 — 如果跑分经得起验证，Whisper 系列的统治地位就要被撼动了。做语音相关产品的，值得立刻跑个对比测试。(4,353 likes | 470 RTs) 详情 →
MiniMax M2.7 上线 Hugging Face：MiniMax 的 M2.7 文本生成模型登陆 HuggingFace。作为国产大模型出海的又一个动作，M2.7 直接放到全球开发者最活跃的平台上接受检验 — 下载量和社区反馈很快会告诉我们它的真实水平。(455 likes | 873 downloads) 详情 →

开发者工具
4Claude Code 新增 /ultraplan — 在网页上做计划，在终端里执行。
Claude Code 推出 /ultraplan 功能：Claude 在网页端帮你生成完整的实现方案，你可以在线阅读和编辑，然后选择在网页上执行或回到终端继续。这解决了一个真实痛点 — 大项目动手前需要对齐方案，以前要么手写文档要么在 chat 里来回扯，现在一条命令搞定。所有开启了 Claude Code Web 的用户现在就能用。(10,245 likes | 658 RTs) 详情 →
Claude Code 多项升级 + 开发者平台新增上下文管理：Claude Code 本身也有一波更新，同时 Claude Developer Platform 上线了两个上下文管理新功能。对于日常用 Claude Code 写代码的开发者，上下文管理的改善意味着长对话场景下 AI 的记忆力更靠谱了。(4,146 likes | 336 RTs) 详情 →
Claude 正式入驻 Slack：通过私信直接和 Claude 聊，在 thread 里 @Claude 协作，或者用 AI 助手面板 — 支持网页搜索、文档分析和已连接的工具。不是又一个"在 Slack 里问 AI"的玩具，而是带完整工具链的 Agent 入口。团队协作场景的想象空间一下子打开了。(3,683 likes | 385 RTs) 详情 →

研究前沿
伯克利研究者证明：操纵 AI Agent 跑分比你想的容易得多：UC Berkeley 团队发表研究，展示了如何系统性地利用当前主流 AI Agent 基准测试的漏洞来刷高分数。这不是理论推演 — 他们在最知名的几个 benchmark 上实际操作了一遍。结论很扎心：排行榜上的分数差距可能反映的是优化技巧的差异，而不是真实能力的高下。正好赶上各家都在用跑分争第一的档口，这篇论文像一盆冷水。(488 likes | 124 RTs) 详情 →

行业洞察
OpenAI 通报 Axios 供应链安全事件，强制更新 macOS 应用：OpenAI 披露了一起涉及第三方库 Axios 的安全事件，属于更大范围的行业安全事故。虽然表示没有证据显示用户数据泄露或系统被入侵，但出于谨慎正在更新安全证书 — 所有 macOS 用户必须更新应用。供应链攻击是 2026 年最真实的安全威胁之一，用 Axios 的开发者都该检查一下自己的依赖版本。(5,777 likes | 512 RTs) 详情 →
Anthropic 悄悄缩短了缓存 TTL，开发者炸了：有开发者发现 Anthropic 在 3 月 6 日下调了 API 的缓存存活时间（Cache TTL），但没有公开通知。社区反应强烈 — 缓存策略直接影响 API 成本和响应速度，悄悄改规则让依赖缓存优化成本的开发者措手不及。这件事的教训：关键基础设施参数的变更需要透明沟通。(461 likes | 355 RTs) 详情 →
ChatGPT 语音模式跑的其实是弱化版模型：Simon Willison 指出 ChatGPT 的语音模式使用的并非完整版模型。这解释了为什么很多人觉得语音模式"没那么聪明" — 因为它确实不是。实时语音交互对延迟要求极高，OpenAI 选择了用模型能力换响应速度。知道这一点后，你可能需要重新评估哪些场景适合用语音模式，哪些该切回文字。 详情 →

技术实战
Gemma 4 + Ollama + Claude Code = 免费本地编程 Agent：一套完全免费的本地 AI 编程 Agent 搭建方案 — 用 Gemma 4 做模型底座，Ollama 做本地推理，Claude Code 做 Agent 框架，通过 Anthropic API 兼容层串起来。零 API 费用、零云端依赖、完全可控。适合对数据隐私有要求或者纯粹想省钱的开发者。周末项目级别的投入，生产力工具级别的产出。(301 likes | 42 RTs) 详情 →

值得一试
narrator-ai-cli-skill — AI 全自动生成电影解说视频：一个 AI Agent 技能文件，装进 Claude Code 等 Agent 工具后，一句话就能自动生成完整的影视解说视频 — 从脚本撰写、片段匹配、配音合成到 BGM 搭配，全流程自动化。内置 93 部电影素材库、63 种音色、146 首 BGM。工程化做得扎实：开工前自动算成本，18 种 API 错误码都有处理方案。做内容的可以认真看看。(729 likes | 191 RTs) 详情 →
Gemma 4 31B 快速量化版上线 Hugging Face：LilaRest 发布 Gemma 4 31B 的 NVFP4 量化版本，显存需求大幅降低的同时保持可用的生成质量。配合上面提到的 Ollama 本地方案，消费级显卡跑 31B 参数模型不再是梦。(169 likes | 21.6K downloads) 详情 →

模型小课堂
基准污染（Benchmark Contamination）vs. 基准操纵（Benchmark Gaming）：Sonnet 4.5 宣称编程第一，伯克利同一个周末就曝光了 Agent 跑分可以被操纵 — 这两件事放在一起，理解"污染"和"操纵"的区别就很有必要了。基准污染指的是训练数据里不小心混入了测试题 — 相当于考试前无意中看到了原题，模型"记住"了答案而不是真的会解题。基准操纵则是刻意针对评测任务做优化 — 不改训练数据，而是在推理策略、提示词工程甚至评测环境上做手脚，让分数好看但实际能力没变。前者是事故，后者是策略。下次看到"某模型跑分第一"的新闻，先问一句：这个分数是怎么来的？

快讯

ChatGPT Goals 上线：持续任务追踪功能，ChatGPT 能记住你的长期目标并主动跟进。(6,015 likes | 413 RTs) 链接
"Claude 在吃创业公司"成热梗：每周一个新功能发布，AI 创业者的焦虑被做成了 meme 疯传。(424 likes) 链接
AI Engineer Europe 2026 回顾：Latent Space 总结了伦敦首届 AI 工程师大会的要点。 链接
SQLite 3.53.0 发布：持续稳定更新的数据库之王。 链接
Mistral 发布"European AI"战略手册：欧洲 AI 的自主路线图，132 页干货。(132 likes | 67 RTs) 链接
SQLite Query Result Formatter Demo：查询结果格式化工具演示。 链接

今日精选
AI 跑分军备竞赛的地基可能是沙子：伯克利的研究在一个微妙的时间点引爆了一颗炸弹 — 各家实验室都在用跑分数据争夺"最强模型"的叙事权，而这项研究证明了主流 Agent 基准测试可以被系统性操纵。这意味着那些驱动着数十亿美元模型竞赛的排行榜，衡量的可能是优化技巧而非真实能力。对于正在根据跑分选型的开发者和技术决策者来说，这个发现的分量不亚于任何一次模型发布 — 你的选型依据可能站在摇晃的地面上。建议：跑分看趋势，选型看自己业务场景的实测。 详情 →
下期见 ✌️

    每个工作日早晨，最精炼的 AI 简报。

在浏览器中阅读
     · 
    历史存档
     · 
    推荐给朋友
     · 
    退订

𝕏

    loreai.dev

                                Don't miss what's next. Subscribe to LoreAI:

            Email address (required)