投机执行快3倍,不丢token反更快
- Agent投机执行实现最高3.35倍加速,SpecEyes将CPU投机执行思想引入agent循环,用小模型预测轨迹并行化视觉工具调用,准确率不降反升
- VLM加速的答案不是压缩视觉token而是按需查询。VISOR用稀疏交叉注意力替代密集自注意力,保留全部视觉信息同时大幅降低计算量(CVPR)
- World model数据集缺的不是规模而是结构——WildWorld提供动作-状态-观测三层解耦的1.08亿帧基准,直指动作与像素直接耦合的设计缺陷
- RL训练跨越文本与图像两种生成范式有了可行框架:UniGRPO用MDP统一建模自回归文本和flow matching图像,为混合架构post-training提供基线
也值得关注
- 用GRPO训练视频agent学会自适应选帧 — 不再暴力全帧处理,RL让agent自己决定看哪里。EVA
- 多模态CoT的token级分析揭示盲区 — 视觉锚定token和推理token需要截然不同的优化力度,统一更新在拖后腿。Rethinking Token-Level Policy Optimization
- 扩散模型的中间表示天然带有降质感知能力 — 光流估计终于可以不怕模糊、噪声和压缩伪影。DA-Flow
- MLLM一步到位把静态mesh拆解为可铰接资产 — embodied AI的数据生产链又短了一截。SIMART
- 3D引擎精确控制场景,视频扩散模型补上真实光影 — sim-to-real gap的新解法。RealMaster
- RL rollout按生成长度排序调度 — 减少padding浪费,简单一招显著提升训练吞吐。SortedRL
- 合成数据训练突破RAG天花板的条件浮出水面 — 不是生成更多数据,而是混合训练策略。Synthetic Mixed Training
- 视频对象分割的过度碎片化有了简洁方案 — 从少量粗槽位开始逐步细化,用重建损失引导课程。Reconstruction-Guided Slot Curriculum
- 多模型路由从离线选最优变成在线bandit学习 — 在质量和多样性之间动态平衡。DAK-UCB
- 视频帧上直接叠加时间标记作为视觉提示 — 让VideoLLM不需密集采样就能理解时序关系。ViKey
Don't miss what's next. Subscribe to AI论文简报: