三模态从零训练,Agent RL稳定性破局
- Apple从零预训三模态masked diffusion模型,系统性测试了scaling law、模态混合和噪声调度,对做多模态扩散的团队直接可参考。masked diffusion正在成为自回归之外的可选路线
- Agentic RL训练collapse有了系统性诊断框架:ARLArena把policy gradient拆成四个设计维度逐一消融,找到不稳定根源,比盲目换算法有效得多
- SkyReels-V4用双流MMDiT同时生成视频和音频,文生视频、inpainting、editing统一为单一接口。统一架构正在收编独立的模态pipeline
- GUI Agent加CoT推理反而损害grounding能力。GUI-Libra发现问题出在action token被稀释和step级验证不完整,给出了针对性修法
- 世界模型走向多人多视角,Solaris在Minecraft里实现多玩家一致性模拟。配套的自动化数据采集系统可能比模型本身更有长期价值
也值得关注
- 条件引导调度解决扩散模型多GPU并行的伪影问题 — 混合数据-流水线并行框架,在保持生成质量的前提下提升多卡加速比。
- 图像编辑开始理解物理因果了 — 用latent transition prior建模折射、形变等动态过程,让编辑结果符合物理规律而非只做像素变换。
- VLA世界模型不必预测像素 — 把未来观测映射到紧凑条件空间而非完整帧,保留细粒度信息的同时降低计算开销。
- 多模态LM直接自回归输出SVG矢量字形 — 绕过光栅化再向量化的传统两步流程,端到端生成高质量字体。
- 拆解Deep Research背后的text ranking到底在做什么 — 搜索API不是黑箱,ranking组件的有效性和失效模式直接影响研究质量。
- ViT的artifact靠register token治不好 — 需要从attention机制本身下手,CVPR工作。
- 全前馈3D编辑,不需要逐场景迭代优化 — 基于TRELLIS骨干的Rectified Voxel Flow方案,CVPR工作。
- 基因表达预测:多模态信号整合比延长输入序列更有效 — 组蛋白修饰等信号的引入效果优于单纯拼接更长DNA序列,ICLR工作。
- Machine unlearning在有偏数据下极不可靠 — 模型学到的捷径让"遗忘"操作形同虚设,AAAI工作。
- RNN的recurrent pole固定住反而更好 — 不训极点让在线学习更稳定,又一个"少训参数反而有效"的例证。
Don't miss what's next. Subscribe to AI论文简报: