文档Agent导航≈碰运气,预填充加速1.82×
- 文档Agent的推理能力被高估了,MADQA用经典测试理论设计的benchmark表明,最好的多模态Agent虽能追平人类准确率,但导航策略更接近随机搜索而非策略推理,与Oracle仍有近20%的差距
- 理解3D空间的更好方式不是扩上下文窗口:Spatial-TTT让模型在推理时通过test-time training持续更新参数,边看视频边学空间结构,长视频场景提升显著
- 稀疏注意力的indexer成了新瓶颈,IndexCache利用相邻层注意力模式的高度重叠跨层复用索引,砍掉75% indexer计算。30B模型预填充加速1.82倍,质量几乎无损
- Reward model幻觉是RL优化图像生成的隐性瓶颈。FIRM从60万+专用数据出发训练8B参数critic模型,用Base-and-Bonus策略避免单一指标误导优化方向,全套开源
也值得关注
- 静态和动态片段分配同样多token是浪费 — EVATok按内容复杂度自适应分配token长度,CVPR。
- 让扩散模型内部产生链式推理,而非依赖单步MLLM编码 — 生成过程中guidance随推理深度动态更新。
- 从交互轨迹中提取经验和技能两种可复用知识 — 无需参数更新即可持续改进Agent工具调用。
- 文本驱动多镜头视频的镜头运动控制 — 数据驱动方式学习caption、轨迹、视频三者的联合分布。
- 预训练权重附近密集分布着任务专家解 — 大模型甚至不需要梯度下降,随机采样就能找到。
- 首个将视频扩散模型确定性转化为单次深度回归器的框架 — 消除生成式方法的随机几何幻觉。
- LLM RL post-training的采样算力怎么分配 — CMU给出等算力曲线下的最优配比。
- AI生成内容污染训练数据会导致模型崩塌 — 按比例混入真实数据replay可以有效延缓。
- Stanford拆解学习型机器人策略的部署可靠性瓶颈 — 分布偏移、误差累积、任务依赖链三个维度。
- MoE+LoRA动态路由的实际推理开销远超理论计算量 — AdaFuse用token级预门控和融合kernel补上这个gap。
Don't miss what's next. Subscribe to AI论文简报: