文档Agent导航≈碰运气，预填充加速1.82×


            
        March 14, 2026
    
    
文档Agent导航≈碰运气，预填充加速1.82×


文档Agent的推理能力被高估了，MADQA用经典测试理论设计的benchmark表明，最好的多模态Agent虽能追平人类准确率，但导航策略更接近随机搜索而非策略推理，与Oracle仍有近20%的差距


理解3D空间的更好方式不是扩上下文窗口：Spatial-TTT让模型在推理时通过test-time training持续更新参数，边看视频边学空间结构，长视频场景提升显著


稀疏注意力的indexer成了新瓶颈，IndexCache利用相邻层注意力模式的高度重叠跨层复用索引，砍掉75% indexer计算。30B模型预填充加速1.82倍，质量几乎无损


Reward model幻觉是RL优化图像生成的隐性瓶颈。FIRM从60万+专用数据出发训练8B参数critic模型，用Base-and-Bonus策略避免单一指标误导优化方向，全套开源


也值得关注

静态和动态片段分配同样多token是浪费 — EVATok按内容复杂度自适应分配token长度，CVPR。
让扩散模型内部产生链式推理，而非依赖单步MLLM编码 — 生成过程中guidance随推理深度动态更新。
从交互轨迹中提取经验和技能两种可复用知识 — 无需参数更新即可持续改进Agent工具调用。
文本驱动多镜头视频的镜头运动控制 — 数据驱动方式学习caption、轨迹、视频三者的联合分布。
预训练权重附近密集分布着任务专家解 — 大模型甚至不需要梯度下降，随机采样就能找到。
首个将视频扩散模型确定性转化为单次深度回归器的框架 — 消除生成式方法的随机几何幻觉。
LLM RL post-training的采样算力怎么分配 — CMU给出等算力曲线下的最优配比。
AI生成内容污染训练数据会导致模型崩塌 — 按比例混入真实数据replay可以有效延缓。
Stanford拆解学习型机器人策略的部署可靠性瓶颈 — 分布偏移、误差累积、任务依赖链三个维度。
MoE+LoRA动态路由的实际推理开销远超理论计算量 — AdaFuse用token级预门控和融合kernel补上这个gap。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)