Agent红队11种失败模式,step级路由降本700倍
- 20人红队测试揭示Agent部署盲区,真实环境中记忆污染、工具链级联、多Agent串谋等11类失败模式远超沙箱评测覆盖范围。最危险的是Agent自报"任务完成"但底层状态已出错
- 视频推理终于有了百万级benchmark:VBVR用规则化评分替代模型打分,把视频模型评估从"画质"拉向"时空因果理解",404个HF upvotes说明社区等了很久
- 统一多模态模型跑进手机,Mobile-O用深度可分离卷积重新设计融合架构而非蒸馏。GenEval 74%,速度比Show-O快6倍,iPhone上3秒出图
- 多模型路由从query级下沉到step级。SkillOrchestra用技能建模替代端到端RL,训练成本降低300-700倍,同时消除路由塌缩问题
- RLVR训练中的策略塌缩比想象的更普遍——token级entropy正则化只换了措辞,没换思路。DSDR同时在轨迹级和token级干预,accuracy和pass@k均有提升
也值得关注
- 检索 推荐系统的latent reasoning约束在协作流形上,防止推理轨迹漂移到不合理区域。
- 多模态 TTT层做3D重建的隐式表示——线性复杂度处理长上下文多视角输入,CVPR接收。
- 机器人 首个VLA模型的训练后量化方案,解决视觉-语言-动作模型的部署瓶颈。
- Agent 用工具文档约束agent的规划和执行——降低单步错误导致的不可恢复失败。
- 评测 评估agent能否推断用户没说出口的隐含需求——无障碍、隐私边界、灾难性风险。
- 训练优化 在essential subspace中做模型合并,减少任务干扰,CVPR接收。
- 推理加速 DiT特征缓存用关系建模替代独立外推,加速扩散生成,ICLR接收。
- 安全对齐 通过激活解耦检测隐藏在流畅文本中的越狱攻击,不依赖表面语义特征。
- 机器人 DeepMind 100次真机训练,系统性回答sim-to-real到底哪些设计选择最关键。
- 安全对齐 对比逆强化学习检测RLHF中的reward hacking,并可解释地修复。
Don't miss what's next. Subscribe to AI论文简报: