投机执行快3倍，不丢token反更快


            
        March 26, 2026
    
    
投机执行快3倍，不丢token反更快


Agent投机执行实现最高3.35倍加速，SpecEyes将CPU投机执行思想引入agent循环，用小模型预测轨迹并行化视觉工具调用，准确率不降反升


VLM加速的答案不是压缩视觉token而是按需查询。VISOR用稀疏交叉注意力替代密集自注意力，保留全部视觉信息同时大幅降低计算量（CVPR）


World model数据集缺的不是规模而是结构——WildWorld提供动作-状态-观测三层解耦的1.08亿帧基准，直指动作与像素直接耦合的设计缺陷


RL训练跨越文本与图像两种生成范式有了可行框架：UniGRPO用MDP统一建模自回归文本和flow matching图像，为混合架构post-training提供基线


也值得关注

用GRPO训练视频agent学会自适应选帧 — 不再暴力全帧处理，RL让agent自己决定看哪里。EVA
多模态CoT的token级分析揭示盲区 — 视觉锚定token和推理token需要截然不同的优化力度，统一更新在拖后腿。Rethinking Token-Level Policy Optimization
扩散模型的中间表示天然带有降质感知能力 — 光流估计终于可以不怕模糊、噪声和压缩伪影。DA-Flow
MLLM一步到位把静态mesh拆解为可铰接资产 — embodied AI的数据生产链又短了一截。SIMART
3D引擎精确控制场景，视频扩散模型补上真实光影 — sim-to-real gap的新解法。RealMaster
RL rollout按生成长度排序调度 — 减少padding浪费，简单一招显著提升训练吞吐。SortedRL
合成数据训练突破RAG天花板的条件浮出水面 — 不是生成更多数据，而是混合训练策略。Synthetic Mixed Training
视频对象分割的过度碎片化有了简洁方案 — 从少量粗槽位开始逐步细化，用重建损失引导课程。Reconstruction-Guided Slot Curriculum
多模型路由从离线选最优变成在线bandit学习 — 在质量和多样性之间动态平衡。DAK-UCB
视频帧上直接叠加时间标记作为视觉提示 — 让VideoLLM不需密集采样就能理解时序关系。ViKey

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)