Flow-OPD把GenEval从63拉到92


            
        May 13, 2026
    
    
Flow-OPD把GenEval从63拉到92


图像生成对齐和 LLM 后训练正在共享同一套工具栈：Flow-OPD 把 On-Policy Distillation 搬到流匹配，SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94，比直接跑 GRPO 高约 10 分。


测试时扩展策略可以搜出来而不是调出来：AutoTTS 把研究者的任务上移一层——不再设计策略，而是搭一个"发现环境"，160 分钟、39.9 美元搜到的策略能跨 benchmark 和模型规模迁移。


agent 的延迟瓶颈常常在被串行化掉的并行机会，HyperEyes 把同一轮里独立的子检索改成并行原子动作，30B 版本准确率高 9.9%、tool-call 轮数少 5.3 倍。


物理交互数据终于进入百万小时量级：HumanNet 100 万小时人类活动视频，第一/第三人称双视角；1000 小时第一人称视频继续训练超过 100 小时真实机器人数据。


一份 LoRA adapter 同时给云端和边缘用：MatryoshkaLoRA 把 rank 改成嵌套层次，部署时按设备能力切档，相比 DyLoRA 在高 rank 端更稳。


也值得关注

A²RD 把长视频合成做成 retrieve-synthesize-refine-update 闭环 — Yale 用 agentic diffusion 抑制长 horizon 上的语义漂移和叙事崩塌。arxiv
SCOPE 用结构化分解 + 条件技能编排处理复杂构图 — 提出"语义承诺"概念解释多约束图像生成为何会丢失要素。arxiv
agent 选错工具其实在 hidden state 里早就能看出来 — Imperial College 在 12 个指令模型里发现工具选择是线性可读和可干预的。arxiv
IntentGrasp 补"LLM 到底听懂没听懂"这一块的评测空白 — 49 个开源语料、12 个领域的意图理解 benchmark。arxiv
ModelLens 处理"十几万个开源模型怎么挑" — 不靠遍历 forward pass，目标是新数据集 + 新模型同时无先验记录的场景。arxiv
InterLV-Search 把视觉证据从输入或答案端解放出来 — 交错语言-视觉的 agentic search benchmark，三层难度共 2061 例。arxiv
BalCapRL 给 MLLM image captioning 的 GRPO 训练加平衡机制 — 应对详细 vs 准确的奖励冲突。arxiv
PACEvolve++ 让 evolutionary search agent 的 policy 不再固定在 prompt-elicited 状态 — 改进 test-time learning。arxiv
Amazon 的 AGWM 给 world model 加 affordance grounding — 处理动作和结果在训练数据里频繁共现导致的虚假因果。arxiv

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)