2.6B开源世界模型撑1分钟720p
- real-time AR 视频的瓶颈正在位移:Causal Forcing++ 把 frame-wise 蒸馏压到 1-2 步,RAVEN 直接对准 long rollout 的 history distribution mismatch 用 consistency-model GRPO 训进去
- SANA-WM 用混合线性注意力撑住分钟级世界模型:2.6B 参数、单卡 H100 原生生成 60 秒 720p,distilled+NVFP4 量化在 RTX 5090 上 34 秒出片
- 多模态长期记忆选型有数据了:MemLens 789 道多会话题对比长上下文 vs 记忆库,结论是单条路线都过不了 30%
- ATLAS 把"调工具还是走隐式推理"压成模型自学的 next-token 决策:不改架构、不加视觉监督,标准 SFT+RL 跑通模式切换
- 设计工具的分层生成卡点不在生成质量:纯合成分层数据训出的模型能超过专有素材,5 万样本是收益拐点
也值得关注
- PDI-Bench 给视频世界模型的几何一致性补上量化评测 — 长度和速度卷出来之后,几何保真度是下一个被卷的轴,跟今天三篇 video gen 形成评测互补。
- PaSaMaster 自我演化的 agentic 文献检索系统 — 目标是兼顾 keyword 检索的可靠性和 LLM 的复杂意图理解,研究者向工具,做学术/咨询场景检索的人值得扫一眼。
- Sat3DGen 把单张卫星图生成街景 3D 场景 — 主要工程价值是把几何保真和语义丰富度这两个传统 trade-off 拉到同一框架里。
- VAE latent 实际分布是 thin spherical shell,欧氏直线 flow 会跑出壳外 — 用球面 flow matching 校正,latent diffusion 的一个隐藏几何 bug 被点出来。
- T2I 多步推理 + 闭环验证 — 跟今天 layered design 一起暗示一个方向:图像生成正在从单步生成走向带中间结构化表示的多步流程。
Don't miss what's next. Subscribe to AI论文简报: