4步超100步基线,跳层省18%算力
- 不可微奖励首次接入少步扩散模型RL训练,4步生成全面超越100步基线,人类偏好、安全检查、物体计数等实际业务中最需要的信号不再被挡在门外。
- 代码模型RL后训练进入工程优化期:同一天两个团队分别从梯度稳定性和数据难度分布两端攻克具体瓶颈,方法论验证阶段已过。
- 全自动pipeline从网络视频提取百万级3D标注。绕开人工标注天花板,数据规模化路径比模型架构创新更能释放3D理解能力。
- 扩散LLM跳层可省18%算力且性能不崩,首个系统性逐层对比揭示dLLM和自回归模型的表征结构根本不同,为AR设计的加速技巧不能直接搬过来。
也值得关注
- 概念定制不再拿原模型能力做交换——PureCC解耦了新概念学习和原始能力保持,CVPR接收。
- 导航世界模型加入动作条件一致性约束——多步rollout不再漂移,还能蒸馏到少步推理。
- NVIDIA开源Megatron Core的MoE训练方案——解决稀疏模型scaling时内存-通信-计算的耦合约束。
- 进化搜索与RL结合做开放式科学问题求解——Helix框架,ICLR接收。
- 在多核CPU上做LLM推理,充分利用NUMA架构——面向没有GPU的服务器部署场景。
- VLM过度依赖LLM组件导致鲁棒性问题——自批判推理框架在test-time修正,CVPR接收。
- 用扩散模型权重本身作为视觉表征的压缩存储介质——Cambridge团队的新思路。
- 概念擦除对线性攻击有效但对非线性攻击仍脆弱——NeurIPS量化了guardedness的根本代价。
- AI准确率跟人类持平但犯错模式完全不同——Cambridge提出OOD谱量化这种错位。
- 在压缩域直接做视频超分——绕开解码-处理-编码的计算开销,逼近实时,CVPR接收。
Don't miss what's next. Subscribe to AI论文简报: