砍掉90%视觉token性能不掉


            
        March 2, 2026
    
    
砍掉90%视觉token性能不掉


空间关系可以从"碰运气"变成可优化的目标，SpatialScore用reward model给生成模型装上空间理解信号，专用小模型空间评估超过GPT-4V。CVPR接收，数据集开源


Masked图像生成4倍加速且质量不掉：用动力学建模替代静态缓存，把离散采样丢掉的语义信息学回来


VLM量化不能一刀切，视觉和语言token分布差异大，MoE式动态误差补偿让不同token走不同修复路径。2B到70B都有效，CVPR接收


90%视觉token可压缩。HiDrop发现浅层做特征对齐不该剪，分层策略匹配每层真实功能是关键。ICLR接收


也值得关注

扩散模型推理缓存不再靠手调——基于敏感度分析自动决定哪些步骤可以复用，把缓存策略从经验调参变成数据驱动。
实时多模态交互框架，同时生成语音和视觉——面向embodied agent场景，解决现有系统只能处理单一模态输出的限制。
NVIDIA用在线扩散增强弥合神经重建与真实感仿真的差距——面向自动驾驶，让基于神经重建的仿真器输出接近真实传感器质量。
物体替换不再需要逐物体微调——初始噪声扰动实现零样本场景感知换物，保持场景和谐性。
静态benchmark跟不上模型进化速度——agent驱动的动态评测协议，让测试题目随模型能力同步演进。
用反思式RL训练MLLM的情感推理能力——解决SFT在情感理解任务上泛化差的问题，引入推理链反思机制。
视觉跟踪的统一token剪枝方案——同时剪模板和搜索区域，面向实时部署场景。
VLM去偏见从黑箱后处理转向可解释的推理链干预——让偏见修正过程透明可审计，而非事后打补丁。
数据集蒸馏引入动态检索和拓扑约束——打破静态锚点的多样性瓶颈，提升合成数据集的代表性。
指令编辑模型的小物体编辑能力首个专项benchmark——填补现有评测对细粒度编辑能力的盲区。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)