AI论文简报

Archives
Log in
April 30, 2026

递归MAS省35%token,T2I整张重画

  • 递归扩展从单模型迁到multi-agent:RecursiveMAS把整个多agent系统cast成一次latent-space递归计算,9个benchmark平均+8.3%accuracy、token用量降34.6%-75.6%、推理1.2-2.4x加速,给multi-agent补上一个明确的scaling旋钮。
  • T2I精修,整张重画反而更彻底:editing-based路线把可改空间压窄导致改不干净,UniGenBench++从61.53推到77.41,给"局部精修"这条默认路径打个问号。
  • 音视频联合训练,先单训再耦合:Mutual Forcing用两阶段训练加自蒸馏,4-8步匹配50步基线、省掉外置teacher模型,自回归流式生成的recipe更直接。
  • 非对称辩论给定制guardrail造数据:BARRED只要task description加少量未标注样本就能合成训练语料,跑赢闭源大模型和专用guardrail,思路对任何边界模糊的分类任务都能挪用。

也值得关注

  • DV-World把数据可视化agent评测从code sandbox拉回真实工作流 — spreadsheet原生操作、跨平台演化、意图对齐,260个任务覆盖三个域,直接戳现有DV agent在single-language creation-only之外的能力上限。
  • 用skill graph合成terminal agent的训练任务 — 缓解高质量执行trajectory长期稀缺这个瓶颈,给命令行agent补一条训练数据通道。
  • FAMA:failure-aware的meta-agentic框架(ACL) — 让开源LLM在conversational tool-use benchmark里从自己的失败模式中学着矫正。
  • 视频扩散模型从pretrain到deployment的系统化post-train流程 — 针对prompt敏感、时序退化等系统性gap,给一套包含RLHF/GRPO的完整训练框架。
  • LVLM幻觉缓解换位置:从decoding挪到prefill-time — 不再在decoding阶段动steering vector,改在prefill期介入。
  • CORAL:多语RAG需要adaptive retrieval loop(ACL) — 检索空间不该固定为query/doc翻译或多语embedding,文化对齐查询要动态展开。
  • policy gradient里的"错reward"分类学 — Princeton指出imperfect proxy reward不都是坏事,某些类型甚至对训练有帮助。
  • 用this/that、这/那做probe测LLM是否习得具身认知 — 6400条母语者回应做跨语对照,看LLM能否从纯文本里学到空间指示与文化变体。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.