ChatGPT Images 2.0 带着"思考能力"来了
发布动态
1ChatGPT Images 2.0 带着"思考能力"来了。
这不是又一个图片模型升级 — GPT-Image-2 是第一个能在生成前"思考"构图的图片模型,精确文字渲染、布局控制、编辑能力全面到位。它用自回归方式逐 token 生成图片,和 DALL-E 3 的差距不是渐进式的,而是架构级的跃迁。对设计师和产品经理来说,"AI 图片不能直接用"这个借口从今天起失效了。ChatGPT 里现在就能试。 详情 →
gpt-image-2 API 和 Codex 同步上线。 不只是消费端产品 — 开发者今天就能通过 API 集成生产级图片生成,支持文字渲染、编辑、高分辨率输出。如果你在做需要图片生成的产品,接入成本刚降了一个数量级。(1,117 likes | 86 RTs) 详情 →
2Google Deep Research Max 全副武装上线。
Google DeepMind 放出 Deep Research Max — 基于 Gemini 3.1 Pro 的自主研究 Agent,能安全地同时搜索公开网络和你的内部文档。关键能力:MCP 支持、原生图表生成、完整工具调用、规划模式。这不是"帮你搜搜"的助手,而是能独立完成完整研究任务的 Agent。做企业知识管理和研究密集型工作的团队,今天值得认真评估。(1,445 likes | 143 RTs) 详情 →
开发者工具
Deep Research API 大升级:MCP 支持、实时流式输出、多模态输入、规划模式、完整工具调用 — 全部一次到位。开发者现在可以用 Google 最强研究系统构建自主研究流水线。如果你在做 RAG 或自动化研究产品,这个 API 值得立刻接入。(延伸阅读:如何集成 MCP Server)(1,530 likes | 123 RTs) 详情 →
Claude Cowork 能建实时仪表板了:Boris Cherny(Claude Code 创作者)转发了 Cowork 的实时 artifact 功能 — Claude 现在能构建连接你应用和文件的动态仪表板和追踪器。不是静态图表,是活的、持续更新的。团队内部 dashboard 的搭建从天级降到分钟级。(18,188 likes | 1,429 RTs) 详情 →
Brex 开源 CrabTrap — Agent 安全防护层:一个用 LLM 做裁判的 HTTP 代理,在 Agent 的请求打到生产 API 之前先做一道安全校验。部署自主 Agent 的团队现在有了一个现成的安全网 — 比"出事再回滚"靠谱多了。(53 likes | 8 RTs) 详情 →
技术实战
GPT-Image-2 的"思考"到底怎么回事:OpenAI 研究团队详细解释了 ChatGPT Images 2.0 背后的智能构图能力 — 第一个在生成前推理整体布局的图片模型。理解这个架构差异能帮你写出更精准的图片 prompt,效果差距可能比模型升级还大。(1,935 likes | 127 RTs) 详情 →
一个让 LLM 输出真正多样化的简单技巧:让大模型生成"随机"或多样化结果出了名的难。这个方法让模型自己生成并操作一个随机种子,简单到几乎不需要改代码,但效果立竿见影。做创意生成或采样任务的,直接加到你的 prompt 工具箱里。(281 likes | 29 RTs) 详情 →
Simon Willison 极限测试 ChatGPT Images 2.0:用对抗性构图 prompt 把新模型推到极限 — "浣熊拿着业余无线电在哪?"这类测试比官方 demo 更能告诉你实际能力边界。想知道这模型到底能做到什么程度,看这篇比看营销材料有用。 详情 →
研究前沿
GPT-Image-2 横扫所有 Image Arena 排行榜:发布当天拿下 Image Arena 全部排行榜第一 — 这是 Arena 历史上第一次被一个模型全线制霸。第三方验证了 OpenAI 的宣传不是吹的。(2,904 likes | 311 RTs) 详情 →
3AI Agent 做研究,比 146 个经济学家团队还稳。
经典实验让 146 个经济学家团队分析同一份数据集,结果差异巨大 — 这就是社会科学"可复现性危机"的经典案例。新论文用 AI Agent 重跑了这个实验,Claude Code 和 Codex 的结果落在人类中位数附近,但方差显著更小。这意味着什么?问题不再是"Agent 能不能做研究",而是"当 AI 比人类专家更一致时,谁才该当可复现性的标杆"。(706 likes | 121 RTs) 详情 →
MegaStyle 宣称风格迁移的"ImageNet 时刻":完整开源了训练代码、推理代码、数据集和模型。和 ChatGPT Images 2.0 同一周发布,给做风格化生成的开发者提供了一个开源替代方案。Clone 下来跑一跑。(273 likes | 37 RTs) 详情 →
行业洞察
Emollick:我们刚跨过了一个没人预料到的质量门槛:用了几周 GPT-Image-2 后,Ethan Mollick 发现了一个拐点 — AI 生成的文本、幻灯片和学术论文已经达到了"直接用"的水平。这不是"又好了一点"的渐进改善,而是从"能看不能用"到"开箱即用"的质变。(1,073 likes | 77 RTs) 详情 →
Meta 开始采集员工鼠标轨迹和键盘输入训练 AI:继 Atlassian 的静默数据采集之后,Meta 也加入了"用员工行为数据训练 AI"的行列。职场 AI 监控正在从个案变成行业趋势 — 如果你的公司还没有 AI 数据使用政策,现在该推了。(262 likes | 242 RTs) 详情 →
Kimi K2.6 定位开源第一梯队:Latent Space 深度分析认为 Kimi K2.6 已超越此前的开源领跑者,在 DeepSeek v4 发布前占据了最强开源模型的位置。选开源还是闭源的团队,现在多了一个有力的选项。 详情 →
值得一试
4HuggingFace 开源 ml-intern — 自动化 post-training 的 Agent。
HuggingFace 开源了 ml-intern,一个能自动完成模型后训练工作流的 Agent。这不是概念验证 — 它已经在 HuggingFace 内部跑起来了,替代了 post-training 团队的部分重复工作。"AI 队友"这个概念终于有了能交付生产任务的实现。Clone 下来适配你自己的 ML 流水线。(2,901 likes | 360 RTs) 详情 →
Agent-Simulator:把 iOS 模拟器串流到浏览器里:基于 MCP 的开源工具,AI Agent 可以直接操作 iOS 模拟器、检查 UI 元素、跳转到 React Native/Expo 源码。做移动端开发的,试试让你的 Agent 直接操作模拟器。(148 likes | 13 RTs) 详情 →
Kimi 2.6 Code 加了 Claude Code 风格终端:给最强开源模型之一加上了终端交互界面,从"强大的模型"到"可用的编码 Agent 工作流"之间的鸿沟一下缩小了。(延伸阅读:Claude Code Subagents 实战指南)(113 likes | 8 RTs) 详情 →
模型小课堂
自回归图片生成(Autoregressive Image Generation):GPT-Image-2 生成图片的方式和 Midjourney、DALL-E 3 完全不同 — 它不走扩散模型(Diffusion)路线,而是像写文字一样,一个 token 一个 token 地生成图片。这意味着模型在输出每个像素块之前,都已经"想过"整体构图和布局。这就是它能精确渲染文字、遵循复杂排版指令的根本原因 — 不是在噪声中提炼图像,而是在"思考"中构建图像。
快讯
- Claude Code /btw 侧聊:输入
/btw 或按 CMD+;,不打断主工作流就能快速问问题,小功能大提效。(84 likes) 链接(延伸阅读:Claude Code 快捷键指南)
- Claude API Prompt Caching 官方指南:跑 Claude API 的循环或 Agent 调用,caching 能大幅砍账单。(103 likes) 链接
- GoModel:Go 语言的轻量级多供应商 AI 网关,比 LiteLLM 更轻便。(155 likes | 61 RTs) 链接
- Google Nano Banana Pro:品牌一致性测试惊艳 — logo、字体、视觉资产跨场景保持统一。(748 likes | 63 RTs) 链接
- Claude Code 退出 Pro 套餐:编码 Agent 不再随 Pro 订阅附送,Anthropic 的定价信号很明确。(169 likes | 93 RTs) 链接
今日精选
AI Agent 做研究比 146 个经济学家团队还稳 — 可复现性的标杆该换了:经典实验让 146 个经济学家团队分析相同数据,得出的结论五花八门 — 社会科学的"可复现性危机"由此而来。新论文用 Claude Code 和 Codex 重跑了这个实验,结果令人深思:AI Agent 不仅落在人类中位数附近,而且方差显著更小。在给定相同数据和任务时,AI 的表现比人类专家更一致、更可预测。问题不再是"AI 能不能做研究",而是"当 AI 比人类更稳定时,谁才应该是可复现性的基准?"这不是替代人类研究者的论点 — 而是说 AI Agent 正在成为科学方法论工具箱中一个不可忽视的新工具。 详情 →
下期见 ✌️
|