AI论文简报

Archives
Log in
March 26, 2026

投机执行快3倍,不丢token反更快

  • Agent投机执行实现最高3.35倍加速,SpecEyes将CPU投机执行思想引入agent循环,用小模型预测轨迹并行化视觉工具调用,准确率不降反升
  • VLM加速的答案不是压缩视觉token而是按需查询。VISOR用稀疏交叉注意力替代密集自注意力,保留全部视觉信息同时大幅降低计算量(CVPR)
  • World model数据集缺的不是规模而是结构——WildWorld提供动作-状态-观测三层解耦的1.08亿帧基准,直指动作与像素直接耦合的设计缺陷
  • RL训练跨越文本与图像两种生成范式有了可行框架:UniGRPO用MDP统一建模自回归文本和flow matching图像,为混合架构post-training提供基线

也值得关注

  • 用GRPO训练视频agent学会自适应选帧 — 不再暴力全帧处理,RL让agent自己决定看哪里。EVA
  • 多模态CoT的token级分析揭示盲区 — 视觉锚定token和推理token需要截然不同的优化力度,统一更新在拖后腿。Rethinking Token-Level Policy Optimization
  • 扩散模型的中间表示天然带有降质感知能力 — 光流估计终于可以不怕模糊、噪声和压缩伪影。DA-Flow
  • MLLM一步到位把静态mesh拆解为可铰接资产 — embodied AI的数据生产链又短了一截。SIMART
  • 3D引擎精确控制场景,视频扩散模型补上真实光影 — sim-to-real gap的新解法。RealMaster
  • RL rollout按生成长度排序调度 — 减少padding浪费,简单一招显著提升训练吞吐。SortedRL
  • 合成数据训练突破RAG天花板的条件浮出水面 — 不是生成更多数据,而是混合训练策略。Synthetic Mixed Training
  • 视频对象分割的过度碎片化有了简洁方案 — 从少量粗槽位开始逐步细化,用重建损失引导课程。Reconstruction-Guided Slot Curriculum
  • 多模型路由从离线选最优变成在线bandit学习 — 在质量和多样性之间动态平衡。DAK-UCB
  • 视频帧上直接叠加时间标记作为视觉提示 — 让VideoLLM不需密集采样就能理解时序关系。ViKey

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.