PDE替掉attention误差低2倍，局部RL省3/4算力


            
        March 24, 2026
    
    
PDE替掉attention误差低2倍，局部RL省3/4算力


形式化证明拆成三个独立能力分别RL，比端到端训练更高效——LongCat-Flash-Prover把自动形式化、框架搭建、逐步证明分开强化，配合HisPO算法解决MoE长链训练不稳定，方法论不绑定模型规模


SFT轨迹上叠加局部RL，四分之一算力逼近端到端效果。 PivotRL只在高方差"转折点"做rollout，OOD任务比标准SFT高10%，已在NVIDIA Nemotron生产模型中落地


PDE替代self-attention做世界模型预测器，重建误差低2倍： FluidWorld用反应-扩散方程提供空间归纳偏置和O(N)复杂度，多步预测稳定性显著优于Transformer


推理阶段对齐语言和动作，比训练时硬塞推理监督更靠谱。 RoboAlign在test-time用自然语言推理采样动作token再做RL对齐，SFT后仅1%数据即有显著提升


也值得关注

F4Splat用预测性密度化替代均匀分配做3D高斯泼溅 — 控制高斯总量的同时保持重建质量。
离散扩散建模有了支持任意噪声过程的统一框架 — 前向和反向推导都很简洁。
给Transformer加可学习的稀疏记忆库 — 通过交叉注意力检索训练期间存储的知识。（ICLR）
视觉编码器微调vs冻结不用二选一了 — 上下文感知的自适应微调方案。（CVPR）
合成推理数据质量不稳定？用约束条件筛选多步轨迹 — 系统性提升合成数据可靠性。（AAAI）
知识蒸馏按样本不确定性动态调整学数据还是学教师 — 不再需要手动调平衡系数。（CVPR）
频率域切换机制做参数高效多任务学习 — 单模型同时适配多个任务。（CVPR）
Latent扩散模型的采样偏差根源找到了 — 方差膨胀损失的修正方案。（CVPR）
情感驱动的3D talking head合成 — few-shot个性化下的表情控制。（CVPR）
3D重建不只追求视觉真实，还传播物理不确定性 — 使重建结果服从物理规律。（CVPR）

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)