AI论文简报

Archives
Log in
March 14, 2026

文档Agent导航≈碰运气,预填充加速1.82×

  • 文档Agent的推理能力被高估了,MADQA用经典测试理论设计的benchmark表明,最好的多模态Agent虽能追平人类准确率,但导航策略更接近随机搜索而非策略推理,与Oracle仍有近20%的差距
  • 理解3D空间的更好方式不是扩上下文窗口:Spatial-TTT让模型在推理时通过test-time training持续更新参数,边看视频边学空间结构,长视频场景提升显著
  • 稀疏注意力的indexer成了新瓶颈,IndexCache利用相邻层注意力模式的高度重叠跨层复用索引,砍掉75% indexer计算。30B模型预填充加速1.82倍,质量几乎无损
  • Reward model幻觉是RL优化图像生成的隐性瓶颈。FIRM从60万+专用数据出发训练8B参数critic模型,用Base-and-Bonus策略避免单一指标误导优化方向,全套开源

也值得关注

  • 静态和动态片段分配同样多token是浪费 — EVATok按内容复杂度自适应分配token长度,CVPR。
  • 让扩散模型内部产生链式推理,而非依赖单步MLLM编码 — 生成过程中guidance随推理深度动态更新。
  • 从交互轨迹中提取经验和技能两种可复用知识 — 无需参数更新即可持续改进Agent工具调用。
  • 文本驱动多镜头视频的镜头运动控制 — 数据驱动方式学习caption、轨迹、视频三者的联合分布。
  • 预训练权重附近密集分布着任务专家解 — 大模型甚至不需要梯度下降,随机采样就能找到。
  • 首个将视频扩散模型确定性转化为单次深度回归器的框架 — 消除生成式方法的随机几何幻觉。
  • LLM RL post-training的采样算力怎么分配 — CMU给出等算力曲线下的最优配比。
  • AI生成内容污染训练数据会导致模型崩塌 — 按比例混入真实数据replay可以有效延缓。
  • Stanford拆解学习型机器人策略的部署可靠性瓶颈 — 分布偏移、误差累积、任务依赖链三个维度。
  • MoE+LoRA动态路由的实际推理开销远超理论计算量 — AdaFuse用token级预门控和融合kernel补上这个gap。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.