3D仅需0.1%token,视频微调反伤空间理解
- 经验库与策略的错位退化是agent RL的隐性瓶颈。Complementary RL让经验提取器根据策略表现动态调整,实现协同演进而非静态积累。
- Video-SFT的时序增益以空间退化为代价——跨架构、跨尺度的系统性实验确认,这不是个别模型的bug,是视频微调的结构性trade-off。
- 视频生成做机器人策略辅助监督,但部署时可以关掉:GigaWorld-Policy的解耦设计比Motus快9倍且成功率高7%。
- 3D tokenization从几何层次转向语义层次,LoST用之前方法0.1%的token量达到更好的重建质量。
- ViT和LLM两端的token剪枝终于统一了 — STTS端到端可训练,长视频场景下采样帧越多效率收益越大。
也值得关注
- 离散audio token压到12.5fps做自回归语音生成 — 开源基础模型的完整可部署方案。MOSS-TTS
- 纯RGB下同时学外观和双目几何 — 不依赖深度图的端到端立体视频生成。StereoWorld
- MLLM在细粒度否定查询上暴露系统性幻觉 — 粗粒度表现尚可掩盖了精细场景的失败模式。FINER
- 分层网格把长视频导航压到对数级计算量 — 无需caption预处理,直接在原始帧上操作。VideoAtlas
- Label-free RL的多数投票让输出多样性坍缩 — 生成器与验证器共同进化打破共识陷阱。CoVerRL
- RL训练的代码搜索Agent解决大仓库精准定位 — coding agent的前置瓶颈,定位不准后续全白搭。CodeScout
- 集成梯度指导LVLM逐层混合精度量化 — 量化敏感度可视化让部署成本直降。QAIG
- GQA注意力转MLA的低秩分解 — 不重新训练就能降KV-cache开销。CARE
- DPO挤压效应的新解法 — 在logit空间做sharpness-aware优化,兼顾对齐和泛化。LogitSAM
- GUI小元素定位靠自适应缩放+指令细化 — GRPO训练的实用方案。AdaZoom-GUI
Don't miss what's next. Subscribe to AI论文简报: