Agent红队11种失败模式，step级路由降本700倍


            
        February 26, 2026
    
    
Agent红队11种失败模式，step级路由降本700倍


20人红队测试揭示Agent部署盲区，真实环境中记忆污染、工具链级联、多Agent串谋等11类失败模式远超沙箱评测覆盖范围。最危险的是Agent自报"任务完成"但底层状态已出错


视频推理终于有了百万级benchmark：VBVR用规则化评分替代模型打分，把视频模型评估从"画质"拉向"时空因果理解"，404个HF upvotes说明社区等了很久


统一多模态模型跑进手机，Mobile-O用深度可分离卷积重新设计融合架构而非蒸馏。GenEval 74%，速度比Show-O快6倍，iPhone上3秒出图


多模型路由从query级下沉到step级。SkillOrchestra用技能建模替代端到端RL，训练成本降低300-700倍，同时消除路由塌缩问题


RLVR训练中的策略塌缩比想象的更普遍——token级entropy正则化只换了措辞，没换思路。DSDR同时在轨迹级和token级干预，accuracy和pass@k均有提升


也值得关注

检索 推荐系统的latent reasoning约束在协作流形上，防止推理轨迹漂移到不合理区域。
多模态 TTT层做3D重建的隐式表示——线性复杂度处理长上下文多视角输入，CVPR接收。
机器人 首个VLA模型的训练后量化方案，解决视觉-语言-动作模型的部署瓶颈。
Agent 用工具文档约束agent的规划和执行——降低单步错误导致的不可恢复失败。
评测 评估agent能否推断用户没说出口的隐含需求——无障碍、隐私边界、灾难性风险。
训练优化 在essential subspace中做模型合并，减少任务干扰，CVPR接收。
推理加速 DiT特征缓存用关系建模替代独立外推，加速扩散生成，ICLR接收。
安全对齐 通过激活解耦检测隐藏在流畅文本中的越狱攻击，不依赖表面语义特征。
机器人 DeepMind 100次真机训练，系统性回答sim-to-real到底哪些设计选择最关键。
安全对齐 对比逆强化学习检测RLHF中的reward hacking，并可解释地修复。


阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)