ChatGPT Images 2.0 带着"思考能力"来了


            
        April 22, 2026
    
    
ChatGPT Images 2.0 带着"思考能力"来了


ChatGPT Images 2.0 带着"思考能力"来了


  ChatGPT Images 2.0 带着"思考能力"来了


LoreAI
AI 日报


2026-04-22


ChatGPT Images 2.0 带着"思考能力"来了

发布动态
1ChatGPT Images 2.0 带着"思考能力"来了。
这不是又一个图片模型升级 — GPT-Image-2 是第一个能在生成前"思考"构图的图片模型，精确文字渲染、布局控制、编辑能力全面到位。它用自回归方式逐 token 生成图片，和 DALL-E 3 的差距不是渐进式的，而是架构级的跃迁。对设计师和产品经理来说，"AI 图片不能直接用"这个借口从今天起失效了。ChatGPT 里现在就能试。 详情 →
gpt-image-2 API 和 Codex 同步上线。 不只是消费端产品 — 开发者今天就能通过 API 集成生产级图片生成，支持文字渲染、编辑、高分辨率输出。如果你在做需要图片生成的产品，接入成本刚降了一个数量级。(1,117 likes | 86 RTs) 详情 →
2Google Deep Research Max 全副武装上线。
Google DeepMind 放出 Deep Research Max — 基于 Gemini 3.1 Pro 的自主研究 Agent，能安全地同时搜索公开网络和你的内部文档。关键能力：MCP 支持、原生图表生成、完整工具调用、规划模式。这不是"帮你搜搜"的助手，而是能独立完成完整研究任务的 Agent。做企业知识管理和研究密集型工作的团队，今天值得认真评估。(1,445 likes | 143 RTs) 详情 →


开发者工具
Deep Research API 大升级：MCP 支持、实时流式输出、多模态输入、规划模式、完整工具调用 — 全部一次到位。开发者现在可以用 Google 最强研究系统构建自主研究流水线。如果你在做 RAG 或自动化研究产品，这个 API 值得立刻接入。（延伸阅读：如何集成 MCP Server）(1,530 likes | 123 RTs) 详情 →
Claude Cowork 能建实时仪表板了：Boris Cherny（Claude Code 创作者）转发了 Cowork 的实时 artifact 功能 — Claude 现在能构建连接你应用和文件的动态仪表板和追踪器。不是静态图表，是活的、持续更新的。团队内部 dashboard 的搭建从天级降到分钟级。(18,188 likes | 1,429 RTs) 详情 →
Brex 开源 CrabTrap — Agent 安全防护层：一个用 LLM 做裁判的 HTTP 代理，在 Agent 的请求打到生产 API 之前先做一道安全校验。部署自主 Agent 的团队现在有了一个现成的安全网 — 比"出事再回滚"靠谱多了。(53 likes | 8 RTs) 详情 →


技术实战
GPT-Image-2 的"思考"到底怎么回事：OpenAI 研究团队详细解释了 ChatGPT Images 2.0 背后的智能构图能力 — 第一个在生成前推理整体布局的图片模型。理解这个架构差异能帮你写出更精准的图片 prompt，效果差距可能比模型升级还大。(1,935 likes | 127 RTs) 详情 →
一个让 LLM 输出真正多样化的简单技巧：让大模型生成"随机"或多样化结果出了名的难。这个方法让模型自己生成并操作一个随机种子，简单到几乎不需要改代码，但效果立竿见影。做创意生成或采样任务的，直接加到你的 prompt 工具箱里。(281 likes | 29 RTs) 详情 →
Simon Willison 极限测试 ChatGPT Images 2.0：用对抗性构图 prompt 把新模型推到极限 — "浣熊拿着业余无线电在哪？"这类测试比官方 demo 更能告诉你实际能力边界。想知道这模型到底能做到什么程度，看这篇比看营销材料有用。 详情 →


研究前沿
GPT-Image-2 横扫所有 Image Arena 排行榜：发布当天拿下 Image Arena 全部排行榜第一 — 这是 Arena 历史上第一次被一个模型全线制霸。第三方验证了 OpenAI 的宣传不是吹的。(2,904 likes | 311 RTs) 详情 →
3AI Agent 做研究，比 146 个经济学家团队还稳。
经典实验让 146 个经济学家团队分析同一份数据集，结果差异巨大 — 这就是社会科学"可复现性危机"的经典案例。新论文用 AI Agent 重跑了这个实验，Claude Code 和 Codex 的结果落在人类中位数附近，但方差显著更小。这意味着什么？问题不再是"Agent 能不能做研究"，而是"当 AI 比人类专家更一致时，谁才该当可复现性的标杆"。(706 likes | 121 RTs) 详情 →
MegaStyle 宣称风格迁移的"ImageNet 时刻"：完整开源了训练代码、推理代码、数据集和模型。和 ChatGPT Images 2.0 同一周发布，给做风格化生成的开发者提供了一个开源替代方案。Clone 下来跑一跑。(273 likes | 37 RTs) 详情 →


行业洞察
Emollick：我们刚跨过了一个没人预料到的质量门槛：用了几周 GPT-Image-2 后，Ethan Mollick 发现了一个拐点 — AI 生成的文本、幻灯片和学术论文已经达到了"直接用"的水平。这不是"又好了一点"的渐进改善，而是从"能看不能用"到"开箱即用"的质变。(1,073 likes | 77 RTs) 详情 →
Meta 开始采集员工鼠标轨迹和键盘输入训练 AI：继 Atlassian 的静默数据采集之后，Meta 也加入了"用员工行为数据训练 AI"的行列。职场 AI 监控正在从个案变成行业趋势 — 如果你的公司还没有 AI 数据使用政策，现在该推了。(262 likes | 242 RTs) 详情 →
Kimi K2.6 定位开源第一梯队：Latent Space 深度分析认为 Kimi K2.6 已超越此前的开源领跑者，在 DeepSeek v4 发布前占据了最强开源模型的位置。选开源还是闭源的团队，现在多了一个有力的选项。 详情 →


值得一试
4HuggingFace 开源 ml-intern — 自动化 post-training 的 Agent。
HuggingFace 开源了 ml-intern，一个能自动完成模型后训练工作流的 Agent。这不是概念验证 — 它已经在 HuggingFace 内部跑起来了，替代了 post-training 团队的部分重复工作。"AI 队友"这个概念终于有了能交付生产任务的实现。Clone 下来适配你自己的 ML 流水线。(2,901 likes | 360 RTs) 详情 →
Agent-Simulator：把 iOS 模拟器串流到浏览器里：基于 MCP 的开源工具，AI Agent 可以直接操作 iOS 模拟器、检查 UI 元素、跳转到 React Native/Expo 源码。做移动端开发的，试试让你的 Agent 直接操作模拟器。(148 likes | 13 RTs) 详情 →
Kimi 2.6 Code 加了 Claude Code 风格终端：给最强开源模型之一加上了终端交互界面，从"强大的模型"到"可用的编码 Agent 工作流"之间的鸿沟一下缩小了。（延伸阅读：Claude Code Subagents 实战指南）(113 likes | 8 RTs) 详情 →


模型小课堂
自回归图片生成（Autoregressive Image Generation）：GPT-Image-2 生成图片的方式和 Midjourney、DALL-E 3 完全不同 — 它不走扩散模型（Diffusion）路线，而是像写文字一样，一个 token 一个 token 地生成图片。这意味着模型在输出每个像素块之前，都已经"想过"整体构图和布局。这就是它能精确渲染文字、遵循复杂排版指令的根本原因 — 不是在噪声中提炼图像，而是在"思考"中构建图像。


快讯

Claude Code /btw 侧聊：输入 /btw 或按 CMD+;，不打断主工作流就能快速问问题，小功能大提效。(84 likes) 链接（延伸阅读：Claude Code 快捷键指南）
Claude API Prompt Caching 官方指南：跑 Claude API 的循环或 Agent 调用，caching 能大幅砍账单。(103 likes) 链接
GoModel：Go 语言的轻量级多供应商 AI 网关，比 LiteLLM 更轻便。(155 likes | 61 RTs) 链接
Google Nano Banana Pro：品牌一致性测试惊艳 — logo、字体、视觉资产跨场景保持统一。(748 likes | 63 RTs) 链接
Claude Code 退出 Pro 套餐：编码 Agent 不再随 Pro 订阅附送，Anthropic 的定价信号很明确。(169 likes | 93 RTs) 链接


今日精选
AI Agent 做研究比 146 个经济学家团队还稳 — 可复现性的标杆该换了：经典实验让 146 个经济学家团队分析相同数据，得出的结论五花八门 — 社会科学的"可复现性危机"由此而来。新论文用 Claude Code 和 Codex 重跑了这个实验，结果令人深思：AI Agent 不仅落在人类中位数附近，而且方差显著更小。在给定相同数据和任务时，AI 的表现比人类专家更一致、更可预测。问题不再是"AI 能不能做研究"，而是"当 AI 比人类更稳定时，谁才应该是可复现性的基准？"这不是替代人类研究者的论点 — 而是说 AI Agent 正在成为科学方法论工具箱中一个不可忽视的新工具。 详情 →
下期见 ✌️


    每个工作日早晨，最精炼的 AI 简报。
  

在浏览器中阅读
     · 
    历史存档
     · 
    推荐给朋友
     · 
    退订


𝕏
      
    loreai.dev


                                Don't miss what's next. Subscribe to LoreAI:
                            
                        
            Email address (required)