梯度提升竟是扩散训练最优解


            
        May 6, 2026
    
    
梯度提升竟是扩散训练最优解


多物体生成翻车要先归因再选方案：T2I多物体失败的主因是scene复杂度而非类别不平衡，concept级问题扩数据能缓解、组合级问题scaling救不了。


VLM玩Mario到100+回合的工程配方：Odysseus用带turn-level critic的PPO变体把RL horizon从20-30推到100+，预训练VLM的动作先验替代了手工action engineering。


GFN在红队场景从demo推向可用：Stable-GFN用对比式trajectory balance绕开partition function估计，正面修了mode collapse这块硬伤。


梯度提升是扩散训练的渐近最优解：决策树和扩散过程在GTSM框架下共享同一优化原则，TreeFlow表格生成提速2倍是初步可用的落地证据。


也值得关注

VLM抗幻觉换一条路 — 不再蒸馏GPT，改成在线自校准；对独立团队部署LVLM而言少一个外部依赖。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)