AI论文简报

Archives
Log in
March 21, 2026

3B参数奥赛三金,768维离散token生成可行

  • Cascade RL加多领域蒸馏让3B参数拿下三项奥赛金牌,NVIDIA开源了完整训练配方,小模型推理天花板被重新定义
  • 视频扩散模型内部已学到完整3D空间先验:无需3D标注或几何模块,直接提取中间层特征就能做深度和场景流预测
  • 768维离散token同时服务理解和生成。CubiD用细粒度掩码扩散绕过高维组合爆炸,多模态统一架构少了一个关键障碍
  • VLA部署的真正瓶颈是反应延迟而非轨迹平滑度——FASTER给出数学公式,将即时反应去噪压缩约10倍
  • Agent自主构建和迭代技能比外部注入更本质,但百分比提升需要结合极低基线冷静看待

也值得关注

  • 语义修改和运动保持不再互相打架 — SAMA将两个目标解耦到独立优化路径,不依赖外部先验。
  • 3DreamBooth用多视角3D表征做主体驱动视频生成 — 视角一致性不再靠运气,物体不再当2D处理。
  • 长视频+音频交叉理解有了系统评测 — 现有OmniLLM在10分钟以上跨模态任务上全面拉胯。
  • 用扩散做离散运动token — 同时兼顾语义条件和运动学约束,两个过去互斥的运动生成范式合流。
  • 视频扩散模型不同去噪步骤对精度敏感度差异巨大 — 据此做步级自适应量化,直接压到6bit。
  • 扩散语言模型RL对齐每步要算完整扩散概率,成本极高 — Meta用轨迹缩减大幅压缩开销。
  • 程序化生成的诊断环境隔离tool-augmented LLM的推理-行动耦合 — 排除记忆和数据污染,来自CMU。
  • 通用模型何时该分裂成领域专家? — EPFL给出最优拆分策略,比一刀切微调更高效。
  • 跨域视频示教转可执行代码 — 神经符号反事实推理自动适配不同物理环境的感知差异。
  • 单张图片重建带关节的3D物体 — 渐进式结构推理将几何、部件、运动参数逐层解耦。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.