AI论文简报

Archives
Log in
March 2, 2026

砍掉90%视觉token性能不掉

  • 空间关系可以从"碰运气"变成可优化的目标,SpatialScore用reward model给生成模型装上空间理解信号,专用小模型空间评估超过GPT-4V。CVPR接收,数据集开源
  • Masked图像生成4倍加速且质量不掉:用动力学建模替代静态缓存,把离散采样丢掉的语义信息学回来
  • VLM量化不能一刀切,视觉和语言token分布差异大,MoE式动态误差补偿让不同token走不同修复路径。2B到70B都有效,CVPR接收
  • 90%视觉token可压缩。HiDrop发现浅层做特征对齐不该剪,分层策略匹配每层真实功能是关键。ICLR接收

也值得关注

  • 扩散模型推理缓存不再靠手调——基于敏感度分析自动决定哪些步骤可以复用,把缓存策略从经验调参变成数据驱动。
  • 实时多模态交互框架,同时生成语音和视觉——面向embodied agent场景,解决现有系统只能处理单一模态输出的限制。
  • NVIDIA用在线扩散增强弥合神经重建与真实感仿真的差距——面向自动驾驶,让基于神经重建的仿真器输出接近真实传感器质量。
  • 物体替换不再需要逐物体微调——初始噪声扰动实现零样本场景感知换物,保持场景和谐性。
  • 静态benchmark跟不上模型进化速度——agent驱动的动态评测协议,让测试题目随模型能力同步演进。
  • 用反思式RL训练MLLM的情感推理能力——解决SFT在情感理解任务上泛化差的问题,引入推理链反思机制。
  • 视觉跟踪的统一token剪枝方案——同时剪模板和搜索区域,面向实时部署场景。
  • VLM去偏见从黑箱后处理转向可解释的推理链干预——让偏见修正过程透明可审计,而非事后打补丁。
  • 数据集蒸馏引入动态检索和拓扑约束——打破静态锚点的多样性瓶颈,提升合成数据集的代表性。
  • 指令编辑模型的小物体编辑能力首个专项benchmark——填补现有评测对细粒度编辑能力的盲区。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.