3B参数奥赛三金，768维离散token生成可行


            
        March 21, 2026
    
    
3B参数奥赛三金，768维离散token生成可行


Cascade RL加多领域蒸馏让3B参数拿下三项奥赛金牌，NVIDIA开源了完整训练配方，小模型推理天花板被重新定义


视频扩散模型内部已学到完整3D空间先验：无需3D标注或几何模块，直接提取中间层特征就能做深度和场景流预测


768维离散token同时服务理解和生成。CubiD用细粒度掩码扩散绕过高维组合爆炸，多模态统一架构少了一个关键障碍


VLA部署的真正瓶颈是反应延迟而非轨迹平滑度——FASTER给出数学公式，将即时反应去噪压缩约10倍


Agent自主构建和迭代技能比外部注入更本质，但百分比提升需要结合极低基线冷静看待


也值得关注

语义修改和运动保持不再互相打架 — SAMA将两个目标解耦到独立优化路径，不依赖外部先验。
3DreamBooth用多视角3D表征做主体驱动视频生成 — 视角一致性不再靠运气，物体不再当2D处理。
长视频+音频交叉理解有了系统评测 — 现有OmniLLM在10分钟以上跨模态任务上全面拉胯。
用扩散做离散运动token — 同时兼顾语义条件和运动学约束，两个过去互斥的运动生成范式合流。
视频扩散模型不同去噪步骤对精度敏感度差异巨大 — 据此做步级自适应量化，直接压到6bit。
扩散语言模型RL对齐每步要算完整扩散概率，成本极高 — Meta用轨迹缩减大幅压缩开销。
程序化生成的诊断环境隔离tool-augmented LLM的推理-行动耦合 — 排除记忆和数据污染，来自CMU。
通用模型何时该分裂成领域专家？ — EPFL给出最优拆分策略，比一刀切微调更高效。
跨域视频示教转可执行代码 — 神经符号反事实推理自动适配不同物理环境的感知差异。
单张图片重建带关节的3D物体 — 渐进式结构推理将几何、部件、运动参数逐层解耦。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)