3D仅需0.1%token，视频微调反伤空间理解


            
        March 20, 2026
    
    
3D仅需0.1%token，视频微调反伤空间理解


经验库与策略的错位退化是agent RL的隐性瓶颈。Complementary RL让经验提取器根据策略表现动态调整，实现协同演进而非静态积累。


Video-SFT的时序增益以空间退化为代价——跨架构、跨尺度的系统性实验确认，这不是个别模型的bug，是视频微调的结构性trade-off。


视频生成做机器人策略辅助监督，但部署时可以关掉：GigaWorld-Policy的解耦设计比Motus快9倍且成功率高7%。


3D tokenization从几何层次转向语义层次，LoST用之前方法0.1%的token量达到更好的重建质量。


ViT和LLM两端的token剪枝终于统一了 — STTS端到端可训练，长视频场景下采样帧越多效率收益越大。


也值得关注

离散audio token压到12.5fps做自回归语音生成 — 开源基础模型的完整可部署方案。MOSS-TTS
纯RGB下同时学外观和双目几何 — 不依赖深度图的端到端立体视频生成。StereoWorld
MLLM在细粒度否定查询上暴露系统性幻觉 — 粗粒度表现尚可掩盖了精细场景的失败模式。FINER
分层网格把长视频导航压到对数级计算量 — 无需caption预处理，直接在原始帧上操作。VideoAtlas
Label-free RL的多数投票让输出多样性坍缩 — 生成器与验证器共同进化打破共识陷阱。CoVerRL
RL训练的代码搜索Agent解决大仓库精准定位 — coding agent的前置瓶颈，定位不准后续全白搭。CodeScout
集成梯度指导LVLM逐层混合精度量化 — 量化敏感度可视化让部署成本直降。QAIG
GQA注意力转MLA的低秩分解 — 不重新训练就能降KV-cache开销。CARE
DPO挤压效应的新解法 — 在logit空间做sharpness-aware优化，兼顾对齐和泛化。LogitSAM
GUI小元素定位靠自适应缩放+指令细化 — GRPO训练的实用方案。AdaZoom-GUI

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)