Claude Sonnet 4.5 拿下编程模型头把交椅
发布动态
1Claude Sonnet 4.5 拿下编程模型头把交椅。
Anthropic 发布 Claude Sonnet 4.5 — 官方直接打出"全球最强编程模型"的旗号。核心卖点:复杂 Agent 构建能力大幅提升,代码生成和多步推理跑分全面领先。对开发者来说,这意味着你的 AI 编程搭档又升了一个档次 — 尤其是在需要 Agent 协作完成多步骤任务的场景下,Sonnet 4.5 的表现会明显不同。现在就可以在 Claude 和 Claude Code 里用上。(延伸阅读:为什么 Claude 写代码这么强?)(20,052 likes | 3,159 RTs) 详情 →
2ChatGPT 上线即时结账 — OpenAI 要当你的 AI 商城。
OpenAI 给 ChatGPT 加了 Instant Checkout 功能 — 聊着天就能下单买东西,不用跳转第三方。从"帮你找"到"帮你买",OpenAI 在搜索和电商的十字路口选了电商。对中国开发者的启示:AI + 电商的闭环不再是概念,ChatGPT 已经跑通了从推荐到支付的完整链路。(10,284 likes | 1,310 RTs) 详情 →
3Mistral 开源语音识别模型,宣称性能 SOTA。
Mistral 放出开源语音识别模型,声称达到业界最优水平。开源 + SOTA 的组合拳对社区杀伤力最大 — 如果跑分经得起验证,Whisper 系列的统治地位就要被撼动了。做语音相关产品的,值得立刻跑个对比测试。(4,353 likes | 470 RTs) 详情 →
MiniMax M2.7 上线 Hugging Face:MiniMax 的 M2.7 文本生成模型登陆 HuggingFace。作为国产大模型出海的又一个动作,M2.7 直接放到全球开发者最活跃的平台上接受检验 — 下载量和社区反馈很快会告诉我们它的真实水平。(455 likes | 873 downloads) 详情 →
开发者工具
4Claude Code 新增 /ultraplan — 在网页上做计划,在终端里执行。
Claude Code 推出 /ultraplan 功能:Claude 在网页端帮你生成完整的实现方案,你可以在线阅读和编辑,然后选择在网页上执行或回到终端继续。这解决了一个真实痛点 — 大项目动手前需要对齐方案,以前要么手写文档要么在 chat 里来回扯,现在一条命令搞定。所有开启了 Claude Code Web 的用户现在就能用。(10,245 likes | 658 RTs) 详情 →
Claude Code 多项升级 + 开发者平台新增上下文管理:Claude Code 本身也有一波更新,同时 Claude Developer Platform 上线了两个上下文管理新功能。对于日常用 Claude Code 写代码的开发者,上下文管理的改善意味着长对话场景下 AI 的记忆力更靠谱了。(4,146 likes | 336 RTs) 详情 →
Claude 正式入驻 Slack:通过私信直接和 Claude 聊,在 thread 里 @Claude 协作,或者用 AI 助手面板 — 支持网页搜索、文档分析和已连接的工具。不是又一个"在 Slack 里问 AI"的玩具,而是带完整工具链的 Agent 入口。团队协作场景的想象空间一下子打开了。(3,683 likes | 385 RTs) 详情 →
研究前沿
伯克利研究者证明:操纵 AI Agent 跑分比你想的容易得多:UC Berkeley 团队发表研究,展示了如何系统性地利用当前主流 AI Agent 基准测试的漏洞来刷高分数。这不是理论推演 — 他们在最知名的几个 benchmark 上实际操作了一遍。结论很扎心:排行榜上的分数差距可能反映的是优化技巧的差异,而不是真实能力的高下。正好赶上各家都在用跑分争第一的档口,这篇论文像一盆冷水。(488 likes | 124 RTs) 详情 →
行业洞察
OpenAI 通报 Axios 供应链安全事件,强制更新 macOS 应用:OpenAI 披露了一起涉及第三方库 Axios 的安全事件,属于更大范围的行业安全事故。虽然表示没有证据显示用户数据泄露或系统被入侵,但出于谨慎正在更新安全证书 — 所有 macOS 用户必须更新应用。供应链攻击是 2026 年最真实的安全威胁之一,用 Axios 的开发者都该检查一下自己的依赖版本。(5,777 likes | 512 RTs) 详情 →
Anthropic 悄悄缩短了缓存 TTL,开发者炸了:有开发者发现 Anthropic 在 3 月 6 日下调了 API 的缓存存活时间(Cache TTL),但没有公开通知。社区反应强烈 — 缓存策略直接影响 API 成本和响应速度,悄悄改规则让依赖缓存优化成本的开发者措手不及。这件事的教训:关键基础设施参数的变更需要透明沟通。(461 likes | 355 RTs) 详情 →
ChatGPT 语音模式跑的其实是弱化版模型:Simon Willison 指出 ChatGPT 的语音模式使用的并非完整版模型。这解释了为什么很多人觉得语音模式"没那么聪明" — 因为它确实不是。实时语音交互对延迟要求极高,OpenAI 选择了用模型能力换响应速度。知道这一点后,你可能需要重新评估哪些场景适合用语音模式,哪些该切回文字。 详情 →
技术实战
Gemma 4 + Ollama + Claude Code = 免费本地编程 Agent:一套完全免费的本地 AI 编程 Agent 搭建方案 — 用 Gemma 4 做模型底座,Ollama 做本地推理,Claude Code 做 Agent 框架,通过 Anthropic API 兼容层串起来。零 API 费用、零云端依赖、完全可控。适合对数据隐私有要求或者纯粹想省钱的开发者。周末项目级别的投入,生产力工具级别的产出。(301 likes | 42 RTs) 详情 →
值得一试
narrator-ai-cli-skill — AI 全自动生成电影解说视频:一个 AI Agent 技能文件,装进 Claude Code 等 Agent 工具后,一句话就能自动生成完整的影视解说视频 — 从脚本撰写、片段匹配、配音合成到 BGM 搭配,全流程自动化。内置 93 部电影素材库、63 种音色、146 首 BGM。工程化做得扎实:开工前自动算成本,18 种 API 错误码都有处理方案。做内容的可以认真看看。(729 likes | 191 RTs) 详情 →
Gemma 4 31B 快速量化版上线 Hugging Face:LilaRest 发布 Gemma 4 31B 的 NVFP4 量化版本,显存需求大幅降低的同时保持可用的生成质量。配合上面提到的 Ollama 本地方案,消费级显卡跑 31B 参数模型不再是梦。(169 likes | 21.6K downloads) 详情 →
模型小课堂
基准污染(Benchmark Contamination)vs. 基准操纵(Benchmark Gaming):Sonnet 4.5 宣称编程第一,伯克利同一个周末就曝光了 Agent 跑分可以被操纵 — 这两件事放在一起,理解"污染"和"操纵"的区别就很有必要了。基准污染指的是训练数据里不小心混入了测试题 — 相当于考试前无意中看到了原题,模型"记住"了答案而不是真的会解题。基准操纵则是刻意针对评测任务做优化 — 不改训练数据,而是在推理策略、提示词工程甚至评测环境上做手脚,让分数好看但实际能力没变。前者是事故,后者是策略。下次看到"某模型跑分第一"的新闻,先问一句:这个分数是怎么来的?
快讯
- ChatGPT Goals 上线:持续任务追踪功能,ChatGPT 能记住你的长期目标并主动跟进。(6,015 likes | 413 RTs) 链接
- "Claude 在吃创业公司"成热梗:每周一个新功能发布,AI 创业者的焦虑被做成了 meme 疯传。(424 likes) 链接
- AI Engineer Europe 2026 回顾:Latent Space 总结了伦敦首届 AI 工程师大会的要点。 链接
- SQLite 3.53.0 发布:持续稳定更新的数据库之王。 链接
- Mistral 发布"European AI"战略手册:欧洲 AI 的自主路线图,132 页干货。(132 likes | 67 RTs) 链接
- SQLite Query Result Formatter Demo:查询结果格式化工具演示。 链接
今日精选
AI 跑分军备竞赛的地基可能是沙子:伯克利的研究在一个微妙的时间点引爆了一颗炸弹 — 各家实验室都在用跑分数据争夺"最强模型"的叙事权,而这项研究证明了主流 Agent 基准测试可以被系统性操纵。这意味着那些驱动着数十亿美元模型竞赛的排行榜,衡量的可能是优化技巧而非真实能力。对于正在根据跑分选型的开发者和技术决策者来说,这个发现的分量不亚于任何一次模型发布 — 你的选型依据可能站在摇晃的地面上。建议:跑分看趋势,选型看自己业务场景的实测。 详情 →
下期见 ✌️
|