Lottie动画直接生成,DPO自带防遗忘
- AI生成动画首次直接输出可编辑工程文件,OmniLottie把Lottie的冗长JSON压缩成参数化token序列,让视觉语言模型直接生成带关键帧和缓动曲线的矢量动画,省去格式转换环节。CVPR接收,200万动画数据集已开源
- DPO的reward估计自带隐式正则化,本身就能抑制灾难性遗忘。SPoT发现很多常见post-training做法反而在破坏这个内置保护,用4k条最小修正数据即可让Qwen3-8B数学任务提升6.2%
- Reward model的CoT不是越长越好:Mix-GRM区分了广度CoT和深度CoT,两者服务不同任务类型。结构化拆分后在5个benchmark上平均超现有最优开源模型8.2%
- 约束同时充当生成蓝图和质检标准。CoVe用显式约束驱动agent训练数据的合成与验证闭环,4B模型在τ²-bench上与17倍参数量模型竞争
也值得关注
- 多图推理benchmark聚焦真实生活场景,不考"学术题"而是测日常情境下的跨图推理能力。ICLR接收。
- Rubric-guided评估本身缺标准 — 微软做了RubricBench,专门度量模型生成评分标准的质量,给"评估的评估"补上量化基准。
- NLU任务的AutoML库 — 数据感知的训练方案自动选择,覆盖文本分类和NER,不需要手动配置pipeline。
- 个人相册检索不只是图文匹配 — PhotoBench要求理解时间线、社交关系和用户意图,比传统图文检索更接近真实使用场景。
- 用3D几何记忆桥接视频生成和场景重建 — 在视频扩散模型中注入显式3D结构,解决多视角一致性问题。
- MoE不再固定Top-K — DynaMoE逐token动态决定激活几个专家,每层容量也自适应调整。
- 上下文内自我反思即可做策略优化 — 不改参数,通过多轮反思提升回答质量,理论可证的test-time scaling方法。
- 用RL让draft模型学会调整草稿长度 — 投机解码的效率瓶颈在于固定草稿长度,自适应调整后加速比更稳定。
- 模块化记忆架构赋予模型持续学习能力 — 将记忆拆分为独立模块,让foundation model具备经验积累和跨任务迁移能力。
- 长对话记忆管理的交互式benchmark — AMemGym用动态交互评测替代静态数据集,更贴近助手在长对话中的真实记忆挑战。
Don't miss what's next. Subscribe to AI论文简报: