AI论文简报

Archives
Log in
March 20, 2026

3D仅需0.1%token,视频微调反伤空间理解

  • 经验库与策略的错位退化是agent RL的隐性瓶颈。Complementary RL让经验提取器根据策略表现动态调整,实现协同演进而非静态积累。
  • Video-SFT的时序增益以空间退化为代价——跨架构、跨尺度的系统性实验确认,这不是个别模型的bug,是视频微调的结构性trade-off。
  • 视频生成做机器人策略辅助监督,但部署时可以关掉:GigaWorld-Policy的解耦设计比Motus快9倍且成功率高7%。
  • 3D tokenization从几何层次转向语义层次,LoST用之前方法0.1%的token量达到更好的重建质量。
  • ViT和LLM两端的token剪枝终于统一了 — STTS端到端可训练,长视频场景下采样帧越多效率收益越大。

也值得关注

  • 离散audio token压到12.5fps做自回归语音生成 — 开源基础模型的完整可部署方案。MOSS-TTS
  • 纯RGB下同时学外观和双目几何 — 不依赖深度图的端到端立体视频生成。StereoWorld
  • MLLM在细粒度否定查询上暴露系统性幻觉 — 粗粒度表现尚可掩盖了精细场景的失败模式。FINER
  • 分层网格把长视频导航压到对数级计算量 — 无需caption预处理,直接在原始帧上操作。VideoAtlas
  • Label-free RL的多数投票让输出多样性坍缩 — 生成器与验证器共同进化打破共识陷阱。CoVerRL
  • RL训练的代码搜索Agent解决大仓库精准定位 — coding agent的前置瓶颈,定位不准后续全白搭。CodeScout
  • 集成梯度指导LVLM逐层混合精度量化 — 量化敏感度可视化让部署成本直降。QAIG
  • GQA注意力转MLA的低秩分解 — 不重新训练就能降KV-cache开销。CARE
  • DPO挤压效应的新解法 — 在logit空间做sharpness-aware优化,兼顾对齐和泛化。LogitSAM
  • GUI小元素定位靠自适应缩放+指令细化 — GRPO训练的实用方案。AdaZoom-GUI

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.