DMax让扩散LM并行效率提升近3倍


            
        April 12, 2026
    
    
DMax让扩散LM并行效率提升近3倍


腾讯用一个VLM统一了机器人的感知和规划，释出2B端侧+32B推理双规格模型，模块化pipeline的复杂度优势可能不再成立


扩散语言模型的并行解码效率提升近3倍：DMax用连续embedding插值替代二值跳变，两块H200跑到每秒1,338 token


Agent的核心瓶颈不是工具太少，是调用太多。HDPO将精度与效率拆成正交通道，工具调用量降几个数量级而准确率不降


文生视频的计数问题有了training-free解法——NUMINA从attention头反推物体布局再修正，直接插到Wan2.1上无需重训


多任务RL的reward分布差异有了系统解法，G²RPO将每个任务的advantage归一化到N(0,1)，18个benchmark超越同级开源模型


也值得关注

153个日常任务、144个真实网站，最强agent成功率不到一半 — 高关注度的大规模agent评测，能力边界一目了然。
AI2释出完全开源的视觉web agent — 附带公开训练数据和完整流程，自建web agent的直接可用baseline。
3000条轨迹蒸馏出9B模型，六个web环境接近甚至超过Gemini 3 Pro — 成本降几个数量级的web agent方案。
手机agent不只要能完成任务，还要知道什么时候该闭嘴 — 个性化agent评测框架，测偏好推断和主动介入的判断力。
实时+高表现力+长时身份一致性 — 数字角色动画的三角难题，LPM用video-based方法同时逼近三者。
推理时用多个可微reward联合引导扩散模型 — 不改权重，对齐、保真、定位统一到采样过程。
LLM踩过的坑下次会不会绕开？ 不测事实回忆，测行为是否自动适应的隐式记忆评测。
T2I奖励模型优化的是平均审美，这篇建模个人偏好 — 每个人觉得好看的不一样。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)