AI论文简报

Archives
Log in
May 13, 2026

Flow-OPD把GenEval从63拉到92

  • 图像生成对齐和 LLM 后训练正在共享同一套工具栈:Flow-OPD 把 On-Policy Distillation 搬到流匹配,SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94,比直接跑 GRPO 高约 10 分。
  • 测试时扩展策略可以搜出来而不是调出来:AutoTTS 把研究者的任务上移一层——不再设计策略,而是搭一个"发现环境",160 分钟、39.9 美元搜到的策略能跨 benchmark 和模型规模迁移。
  • agent 的延迟瓶颈常常在被串行化掉的并行机会,HyperEyes 把同一轮里独立的子检索改成并行原子动作,30B 版本准确率高 9.9%、tool-call 轮数少 5.3 倍。
  • 物理交互数据终于进入百万小时量级:HumanNet 100 万小时人类活动视频,第一/第三人称双视角;1000 小时第一人称视频继续训练超过 100 小时真实机器人数据。
  • 一份 LoRA adapter 同时给云端和边缘用:MatryoshkaLoRA 把 rank 改成嵌套层次,部署时按设备能力切档,相比 DyLoRA 在高 rank 端更稳。

也值得关注

  • A²RD 把长视频合成做成 retrieve-synthesize-refine-update 闭环 — Yale 用 agentic diffusion 抑制长 horizon 上的语义漂移和叙事崩塌。arxiv
  • SCOPE 用结构化分解 + 条件技能编排处理复杂构图 — 提出"语义承诺"概念解释多约束图像生成为何会丢失要素。arxiv
  • agent 选错工具其实在 hidden state 里早就能看出来 — Imperial College 在 12 个指令模型里发现工具选择是线性可读和可干预的。arxiv
  • IntentGrasp 补"LLM 到底听懂没听懂"这一块的评测空白 — 49 个开源语料、12 个领域的意图理解 benchmark。arxiv
  • ModelLens 处理"十几万个开源模型怎么挑" — 不靠遍历 forward pass,目标是新数据集 + 新模型同时无先验记录的场景。arxiv
  • InterLV-Search 把视觉证据从输入或答案端解放出来 — 交错语言-视觉的 agentic search benchmark,三层难度共 2061 例。arxiv
  • BalCapRL 给 MLLM image captioning 的 GRPO 训练加平衡机制 — 应对详细 vs 准确的奖励冲突。arxiv
  • PACEvolve++ 让 evolutionary search agent 的 policy 不再固定在 prompt-elicited 状态 — 改进 test-time learning。arxiv
  • Amazon 的 AGWM 给 world model 加 affordance grounding — 处理动作和结果在训练数据里频繁共现导致的虚假因果。arxiv

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.