Introducing Aardvark

        March 8, 2026

Introducing Aardvark

Introducing Aardvark

  Introducing Aardvark

LoreAI

在浏览器中阅读

Introducing Aardvark
2026-03-09
今日 AI 圈最值得关注的动态。
今日看点: OpenAI 发布 Aardvark，产品线再添新成员。, OpenAI 让模型"看图思考"了。, Claude Marketplace 上线，Anthropic 要做企业 AI 采购入口。.
🧠 发布动态
$3
OpenAI 的新产品 Aardvark 正式亮相 — 这不是 GPT 的改名，而是一条全新产品线。对于在 OpenAI 生态上构建应用的团队来说，需要重新评估平台布局：GPT、Codex、Aardvark 各自覆盖什么场景，API 怎么选。等细节出齐再做判断，但方向很清楚 — OpenAI 不想只做一个聊天模型公司。 详情 →
$3
视觉推理（Thinking With Images）上线 — 模型现在可以在思维链中对图像进行推理，不只是"看到图"而是"看懂图再想"。这对做多模态 Agent 工作流的团队是实质性升级：流程图解析、UI 截图理解、文档表格推理都有了新的可能性。如果你的产品涉及视觉输入，今天就该测。 详情 →
$3
Anthropic 推出企业级 AI 工具市场，目标很明确：让 Claude 成为企业 AI 采购的默认入口。不只是卖模型，而是做平台。企业 AI 采购负责人值得关注 — 谁先把采购流程跑通，谁就锁定了预算。(9,899 likes | 559 RTs) 详情 →
Claude Connectors 免费开放，150+ 集成随便用。 编码、数据、设计、财务、销售 — 150 多个连接器全部对免费用户开放。这招狠：当你的工作流已经深度绑定 Claude 的连接器生态，换模型的成本就上去了。先用起来再说。(8,804 likes | 737 RTs) 详情 →
微软 Phi-4-reasoning-vision-15B 来了。 15B 参数的视觉推理模型 — 能在普通显卡上跑的多模态推理。不是所有场景都需要百亿级大模型，边缘设备和本地部署的团队可以认真看看。(63 likes | 6.8K downloads) 详情 →

🔧 开发者工具
Codex Security — OpenAI 出了专门找漏洞的 Agent：不是通用 AI 写代码，而是专门扫描漏洞、验证问题、提出修复方案的安全 Agent。直接跟传统 SAST 工具和 Anthropic 的安全方案竞争。AppSec 工程师的工具箱里该加一个新选项了。(2,926 likes | 217 RTs) 详情 →
NVIDIA 把 Qwen 3.5 397B 压到 FP4 了：81K 下载量说明需求真实存在 — 大家都想跑大模型但 GPU 不够。FP4 量化让这个 397B 的 MoE 模型在更少的卡上跑起来。如果你在部署大规模开源模型，这是降本的直接路径。(63 likes | 81.1K downloads) 详情 →
微软 VibeVoice 语音识别模型开源：两万多次下载，又一个 Whisper 的挑战者。做语音转文字的团队多了一个值得对比的选项。(37 likes | 20.9K downloads) 详情 →

📝 技术实战
Karpathy 又来秀了：nanochat 单节点 2 小时训 GPT-2。 从 3 小时压到 2 小时，关键武器是 FP8 精度和 NVIDIA ClimbMix 数据集。结论很朴素但很有力 — 数据集质量和精度调优依然是性价比最高的优化手段。想加速自己训练流程的，先试 ClimbMix。(4,963 likes | 410 RTs) 详情 →
把 Wireshark 老专家的经验变成一个 Markdown 文件：Checkly 团队把一个领域专家的 Wireshark 知识结构化成 Markdown，然后让 AI Agent 用它来工作。这个模式可以复制 — 你团队里那些"只有老王知道"的隐性知识，都可以这样变成 Agent 的能力来源。(5 likes) 详情 →

🔬 研究前沿
OpenAI 发现：GPT-5.4 很难隐藏自己的思考过程。 思维链可控性评估显示，模型在掩盖推理过程方面能力很弱 — 这其实是好消息。如果模型"藏不住心思"，那通过监控思维链来保障安全就是可行的。对做 AI 安全和对齐研究的人来说，这是关键证据。(2,585 likes | 278 RTs) 详情 →
SWE-CI：比 SWE-bench 更接近真实工作的编码 Agent 评测。 新 benchmark 评估的是 Agent 维护 CI 流水线的能力 — 修 pipeline、处理 flaky test、更新依赖，这才是开发者日常干的活。如果你在做或评估编码 Agent，这个 eval 比 SWE-bench 更有参考价值。(97 likes | 35 RTs) 详情 →

💡 行业洞察
ChatGPT 用户涌向 Claude，Anthropic 基础设施扛不住了。 DoD 争议引发大规模用户迁移，Claude 的服务器正在承压。挑战者抢到了流量，但接不接得住是另一回事。如果 Claude API 在你的生产栈里，最近盯紧延迟指标。(30 likes) 详情 →
OpenAI 按自己的章程，应该退出竞赛？ 一篇犀利的分析 — 作者逐条对照 OpenAI 的创始章程，论证其当前的竞争行为与初始使命矛盾。不一定同意结论，但论证过程值得一读，尤其是在思考 AI 治理的时候。(144 likes | 43 RTs) 详情 →
Codex 免费给开源维护者用：Simon Willison 分析了 OpenAI 向开源社区免费提供 Codex 的策略 — 和 Anthropic 的 Claude for Open Source 项目如出一辙。AI 大厂在用免费工具争夺开发者忠诚度，开源维护者成了战略资源。维护开源项目的赶紧看看自己是否符合条件。 详情 →

🏗️ 值得一试
Sarvam-105B — 印度 AI 实验室的 1050 亿参数大模型：Sarvam AI 发布的 105B 模型，印度本土最大的开源模型之一。AI 能力不再只是中美两家的事。如果你有印度语系（Indic languages）的多语言需求，值得跑个对比。(139 likes | 111 downloads) 详情 →
LTX-2.3 — 图生视频模型，ComfyUI 直接用：Lightricks 最新的开源图生视频模型，已经有 ComfyUI 工作流可以直接跑。不想用闭源 API 做视频生成的团队，又多了一个选择。(109 likes) 详情 →

🎓 模型小课堂
思维链可控性（Chain-of-Thought Controllability）：大模型在回答问题时会"想一想"再回答，这个中间过程叫思维链（Chain-of-Thought）。可控性指的是模型能不能被指示去隐藏或修改自己的思考过程。OpenAI 最新研究发现，GPT-5.4 很难做到"想一套说一套" — 它的思维链基本是诚实的。这对 AI 安全很重要：如果我们能可靠地监控模型的思维链，就有了一个内置的"测谎仪"。

⚡ 快讯

OpenAI Model Spec 更新：模型行为规范迭代，用 API 的都该看看改了什么。 链接
Clinejection 供应链攻击：一个 GitHub Issue 标题注入攻击影响了 4000 台开发者机器，用 AI 编码工具的立刻审查权限配置。(154 likes | 38 RTs) 链接

🎯 今日精选
OpenAI 全线出击，但 Anthropic 的免费连接器可能才是最聪明的一招：OpenAI 今天一口气推出 Aardvark 新产品线、图像推理能力和安全 Agent，看起来气势如虹。但仔细想想，Anthropic 把 150+ 连接器免费开放给所有用户这一招更有战略深度 — 连接器是工作流的胶水，一旦用户把 Claude 嵌入了日常工具链，迁移成本就指数级上升。OpenAI 在拼产品广度，Anthropic 在拼生态粘性。短期看 OpenAI 声量更大，但长期看，谁锁定了工作流谁就锁定了用户。开发者和企业采购者现在应该做的不是选边站，而是趁两家互卷把免费工具都用起来。 详情 →

下期见 ✌️

    每个工作日早晨，最精炼的 AI 简报。

Archive
     · 
    loreai.dev
     · 
    退订

                                Don't miss what's next. Subscribe to LoreAI:

            Email address (required)