2.6B开源世界模型撑1分钟720p


            
        May 17, 2026
    
    
2.6B开源世界模型撑1分钟720p


real-time AR 视频的瓶颈正在位移：Causal Forcing++ 把 frame-wise 蒸馏压到 1-2 步，RAVEN 直接对准 long rollout 的 history distribution mismatch 用 consistency-model GRPO 训进去


SANA-WM 用混合线性注意力撑住分钟级世界模型：2.6B 参数、单卡 H100 原生生成 60 秒 720p，distilled+NVFP4 量化在 RTX 5090 上 34 秒出片


多模态长期记忆选型有数据了：MemLens 789 道多会话题对比长上下文 vs 记忆库，结论是单条路线都过不了 30%


ATLAS 把"调工具还是走隐式推理"压成模型自学的 next-token 决策：不改架构、不加视觉监督，标准 SFT+RL 跑通模式切换


设计工具的分层生成卡点不在生成质量：纯合成分层数据训出的模型能超过专有素材，5 万样本是收益拐点


也值得关注

PDI-Bench 给视频世界模型的几何一致性补上量化评测 — 长度和速度卷出来之后，几何保真度是下一个被卷的轴，跟今天三篇 video gen 形成评测互补。
PaSaMaster 自我演化的 agentic 文献检索系统 — 目标是兼顾 keyword 检索的可靠性和 LLM 的复杂意图理解，研究者向工具，做学术/咨询场景检索的人值得扫一眼。
Sat3DGen 把单张卫星图生成街景 3D 场景 — 主要工程价值是把几何保真和语义丰富度这两个传统 trade-off 拉到同一框架里。
VAE latent 实际分布是 thin spherical shell，欧氏直线 flow 会跑出壳外 — 用球面 flow matching 校正，latent diffusion 的一个隐藏几何 bug 被点出来。
T2I 多步推理 + 闭环验证 — 跟今天 layered design 一起暗示一个方向：图像生成正在从单步生成走向带中间结构化表示的多步流程。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)