AI论文简报

Archives
Log in
March 24, 2026

PDE替掉attention误差低2倍,局部RL省3/4算力

  • 形式化证明拆成三个独立能力分别RL,比端到端训练更高效——LongCat-Flash-Prover把自动形式化、框架搭建、逐步证明分开强化,配合HisPO算法解决MoE长链训练不稳定,方法论不绑定模型规模
  • SFT轨迹上叠加局部RL,四分之一算力逼近端到端效果。 PivotRL只在高方差"转折点"做rollout,OOD任务比标准SFT高10%,已在NVIDIA Nemotron生产模型中落地
  • PDE替代self-attention做世界模型预测器,重建误差低2倍: FluidWorld用反应-扩散方程提供空间归纳偏置和O(N)复杂度,多步预测稳定性显著优于Transformer
  • 推理阶段对齐语言和动作,比训练时硬塞推理监督更靠谱。 RoboAlign在test-time用自然语言推理采样动作token再做RL对齐,SFT后仅1%数据即有显著提升

也值得关注

  • F4Splat用预测性密度化替代均匀分配做3D高斯泼溅 — 控制高斯总量的同时保持重建质量。
  • 离散扩散建模有了支持任意噪声过程的统一框架 — 前向和反向推导都很简洁。
  • 给Transformer加可学习的稀疏记忆库 — 通过交叉注意力检索训练期间存储的知识。(ICLR)
  • 视觉编码器微调vs冻结不用二选一了 — 上下文感知的自适应微调方案。(CVPR)
  • 合成推理数据质量不稳定?用约束条件筛选多步轨迹 — 系统性提升合成数据可靠性。(AAAI)
  • 知识蒸馏按样本不确定性动态调整学数据还是学教师 — 不再需要手动调平衡系数。(CVPR)
  • 频率域切换机制做参数高效多任务学习 — 单模型同时适配多个任务。(CVPR)
  • Latent扩散模型的采样偏差根源找到了 — 方差膨胀损失的修正方案。(CVPR)
  • 情感驱动的3D talking head合成 — few-shot个性化下的表情控制。(CVPR)
  • 3D重建不只追求视觉真实,还传播物理不确定性 — 使重建结果服从物理规律。(CVPR)

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.