DMax让扩散LM并行效率提升近3倍
- 腾讯用一个VLM统一了机器人的感知和规划,释出2B端侧+32B推理双规格模型,模块化pipeline的复杂度优势可能不再成立
- 扩散语言模型的并行解码效率提升近3倍:DMax用连续embedding插值替代二值跳变,两块H200跑到每秒1,338 token
- Agent的核心瓶颈不是工具太少,是调用太多。HDPO将精度与效率拆成正交通道,工具调用量降几个数量级而准确率不降
- 文生视频的计数问题有了training-free解法——NUMINA从attention头反推物体布局再修正,直接插到Wan2.1上无需重训
- 多任务RL的reward分布差异有了系统解法,G²RPO将每个任务的advantage归一化到N(0,1),18个benchmark超越同级开源模型
也值得关注
- 153个日常任务、144个真实网站,最强agent成功率不到一半 — 高关注度的大规模agent评测,能力边界一目了然。
- AI2释出完全开源的视觉web agent — 附带公开训练数据和完整流程,自建web agent的直接可用baseline。
- 3000条轨迹蒸馏出9B模型,六个web环境接近甚至超过Gemini 3 Pro — 成本降几个数量级的web agent方案。
- 手机agent不只要能完成任务,还要知道什么时候该闭嘴 — 个性化agent评测框架,测偏好推断和主动介入的判断力。
- 实时+高表现力+长时身份一致性 — 数字角色动画的三角难题,LPM用video-based方法同时逼近三者。
- 推理时用多个可微reward联合引导扩散模型 — 不改权重,对齐、保真、定位统一到采样过程。
- LLM踩过的坑下次会不会绕开? 不测事实回忆,测行为是否自动适应的隐式记忆评测。
- T2I奖励模型优化的是平均审美,这篇建模个人偏好 — 每个人觉得好看的不一样。
Don't miss what's next. Subscribe to AI论文简报: