三模态从零训练，Agent RL稳定性破局


            
        February 27, 2026
    
    
三模态从零训练，Agent RL稳定性破局


Apple从零预训三模态masked diffusion模型，系统性测试了scaling law、模态混合和噪声调度，对做多模态扩散的团队直接可参考。masked diffusion正在成为自回归之外的可选路线


Agentic RL训练collapse有了系统性诊断框架：ARLArena把policy gradient拆成四个设计维度逐一消融，找到不稳定根源，比盲目换算法有效得多


SkyReels-V4用双流MMDiT同时生成视频和音频，文生视频、inpainting、editing统一为单一接口。统一架构正在收编独立的模态pipeline


GUI Agent加CoT推理反而损害grounding能力。GUI-Libra发现问题出在action token被稀释和step级验证不完整，给出了针对性修法


世界模型走向多人多视角，Solaris在Minecraft里实现多玩家一致性模拟。配套的自动化数据采集系统可能比模型本身更有长期价值


也值得关注

条件引导调度解决扩散模型多GPU并行的伪影问题 — 混合数据-流水线并行框架，在保持生成质量的前提下提升多卡加速比。
图像编辑开始理解物理因果了 — 用latent transition prior建模折射、形变等动态过程，让编辑结果符合物理规律而非只做像素变换。
VLA世界模型不必预测像素 — 把未来观测映射到紧凑条件空间而非完整帧，保留细粒度信息的同时降低计算开销。
多模态LM直接自回归输出SVG矢量字形 — 绕过光栅化再向量化的传统两步流程，端到端生成高质量字体。
拆解Deep Research背后的text ranking到底在做什么 — 搜索API不是黑箱，ranking组件的有效性和失效模式直接影响研究质量。
ViT的artifact靠register token治不好 — 需要从attention机制本身下手，CVPR工作。
全前馈3D编辑，不需要逐场景迭代优化 — 基于TRELLIS骨干的Rectified Voxel Flow方案，CVPR工作。
基因表达预测：多模态信号整合比延长输入序列更有效 — 组蛋白修饰等信号的引入效果优于单纯拼接更长DNA序列，ICLR工作。
Machine unlearning在有偏数据下极不可靠 — 模型学到的捷径让"遗忘"操作形同虚设，AAAI工作。
RNN的recurrent pole固定住反而更好 — 不训极点让在线学习更稳定，又一个"少训参数反而有效"的例证。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)