Introducing Aardvark
2026-03-09
今日 AI 圈最值得关注的动态。
今日看点: OpenAI 发布 Aardvark,产品线再添新成员。, OpenAI 让模型"看图思考"了。, Claude Marketplace 上线,Anthropic 要做企业 AI 采购入口。.
🧠 发布动态
$3
OpenAI 的新产品 Aardvark 正式亮相 — 这不是 GPT 的改名,而是一条全新产品线。对于在 OpenAI 生态上构建应用的团队来说,需要重新评估平台布局:GPT、Codex、Aardvark 各自覆盖什么场景,API 怎么选。等细节出齐再做判断,但方向很清楚 — OpenAI 不想只做一个聊天模型公司。 详情 →
$3
视觉推理(Thinking With Images)上线 — 模型现在可以在思维链中对图像进行推理,不只是"看到图"而是"看懂图再想"。这对做多模态 Agent 工作流的团队是实质性升级:流程图解析、UI 截图理解、文档表格推理都有了新的可能性。如果你的产品涉及视觉输入,今天就该测。 详情 →
$3
Anthropic 推出企业级 AI 工具市场,目标很明确:让 Claude 成为企业 AI 采购的默认入口。不只是卖模型,而是做平台。企业 AI 采购负责人值得关注 — 谁先把采购流程跑通,谁就锁定了预算。(9,899 likes | 559 RTs) 详情 →
Claude Connectors 免费开放,150+ 集成随便用。 编码、数据、设计、财务、销售 — 150 多个连接器全部对免费用户开放。这招狠:当你的工作流已经深度绑定 Claude 的连接器生态,换模型的成本就上去了。先用起来再说。(8,804 likes | 737 RTs) 详情 →
微软 Phi-4-reasoning-vision-15B 来了。 15B 参数的视觉推理模型 — 能在普通显卡上跑的多模态推理。不是所有场景都需要百亿级大模型,边缘设备和本地部署的团队可以认真看看。(63 likes | 6.8K downloads) 详情 →
🔧 开发者工具
Codex Security — OpenAI 出了专门找漏洞的 Agent:不是通用 AI 写代码,而是专门扫描漏洞、验证问题、提出修复方案的安全 Agent。直接跟传统 SAST 工具和 Anthropic 的安全方案竞争。AppSec 工程师的工具箱里该加一个新选项了。(2,926 likes | 217 RTs) 详情 →
NVIDIA 把 Qwen 3.5 397B 压到 FP4 了:81K 下载量说明需求真实存在 — 大家都想跑大模型但 GPU 不够。FP4 量化让这个 397B 的 MoE 模型在更少的卡上跑起来。如果你在部署大规模开源模型,这是降本的直接路径。(63 likes | 81.1K downloads) 详情 →
微软 VibeVoice 语音识别模型开源:两万多次下载,又一个 Whisper 的挑战者。做语音转文字的团队多了一个值得对比的选项。(37 likes | 20.9K downloads) 详情 →
📝 技术实战
Karpathy 又来秀了:nanochat 单节点 2 小时训 GPT-2。 从 3 小时压到 2 小时,关键武器是 FP8 精度和 NVIDIA ClimbMix 数据集。结论很朴素但很有力 — 数据集质量和精度调优依然是性价比最高的优化手段。想加速自己训练流程的,先试 ClimbMix。(4,963 likes | 410 RTs) 详情 →
把 Wireshark 老专家的经验变成一个 Markdown 文件:Checkly 团队把一个领域专家的 Wireshark 知识结构化成 Markdown,然后让 AI Agent 用它来工作。这个模式可以复制 — 你团队里那些"只有老王知道"的隐性知识,都可以这样变成 Agent 的能力来源。(5 likes) 详情 →
🔬 研究前沿
OpenAI 发现:GPT-5.4 很难隐藏自己的思考过程。 思维链可控性评估显示,模型在掩盖推理过程方面能力很弱 — 这其实是好消息。如果模型"藏不住心思",那通过监控思维链来保障安全就是可行的。对做 AI 安全和对齐研究的人来说,这是关键证据。(2,585 likes | 278 RTs) 详情 →
SWE-CI:比 SWE-bench 更接近真实工作的编码 Agent 评测。 新 benchmark 评估的是 Agent 维护 CI 流水线的能力 — 修 pipeline、处理 flaky test、更新依赖,这才是开发者日常干的活。如果你在做或评估编码 Agent,这个 eval 比 SWE-bench 更有参考价值。(97 likes | 35 RTs) 详情 →
💡 行业洞察
ChatGPT 用户涌向 Claude,Anthropic 基础设施扛不住了。 DoD 争议引发大规模用户迁移,Claude 的服务器正在承压。挑战者抢到了流量,但接不接得住是另一回事。如果 Claude API 在你的生产栈里,最近盯紧延迟指标。(30 likes) 详情 →
OpenAI 按自己的章程,应该退出竞赛? 一篇犀利的分析 — 作者逐条对照 OpenAI 的创始章程,论证其当前的竞争行为与初始使命矛盾。不一定同意结论,但论证过程值得一读,尤其是在思考 AI 治理的时候。(144 likes | 43 RTs) 详情 →
Codex 免费给开源维护者用:Simon Willison 分析了 OpenAI 向开源社区免费提供 Codex 的策略 — 和 Anthropic 的 Claude for Open Source 项目如出一辙。AI 大厂在用免费工具争夺开发者忠诚度,开源维护者成了战略资源。维护开源项目的赶紧看看自己是否符合条件。 详情 →
🏗️ 值得一试
Sarvam-105B — 印度 AI 实验室的 1050 亿参数大模型:Sarvam AI 发布的 105B 模型,印度本土最大的开源模型之一。AI 能力不再只是中美两家的事。如果你有印度语系(Indic languages)的多语言需求,值得跑个对比。(139 likes | 111 downloads) 详情 →
LTX-2.3 — 图生视频模型,ComfyUI 直接用:Lightricks 最新的开源图生视频模型,已经有 ComfyUI 工作流可以直接跑。不想用闭源 API 做视频生成的团队,又多了一个选择。(109 likes) 详情 →
🎓 模型小课堂
思维链可控性(Chain-of-Thought Controllability):大模型在回答问题时会"想一想"再回答,这个中间过程叫思维链(Chain-of-Thought)。可控性指的是模型能不能被指示去隐藏或修改自己的思考过程。OpenAI 最新研究发现,GPT-5.4 很难做到"想一套说一套" — 它的思维链基本是诚实的。这对 AI 安全很重要:如果我们能可靠地监控模型的思维链,就有了一个内置的"测谎仪"。
⚡ 快讯
- OpenAI Model Spec 更新:模型行为规范迭代,用 API 的都该看看改了什么。 链接
- Clinejection 供应链攻击:一个 GitHub Issue 标题注入攻击影响了 4000 台开发者机器,用 AI 编码工具的立刻审查权限配置。(154 likes | 38 RTs) 链接
🎯 今日精选
OpenAI 全线出击,但 Anthropic 的免费连接器可能才是最聪明的一招:OpenAI 今天一口气推出 Aardvark 新产品线、图像推理能力和安全 Agent,看起来气势如虹。但仔细想想,Anthropic 把 150+ 连接器免费开放给所有用户这一招更有战略深度 — 连接器是工作流的胶水,一旦用户把 Claude 嵌入了日常工具链,迁移成本就指数级上升。OpenAI 在拼产品广度,Anthropic 在拼生态粘性。短期看 OpenAI 声量更大,但长期看,谁锁定了工作流谁就锁定了用户。开发者和企业采购者现在应该做的不是选边站,而是趁两家互卷把免费工具都用起来。 详情 →
下期见 ✌️
|