递归MAS省35%token，T2I整张重画


            
        April 30, 2026
    
    
递归MAS省35%token，T2I整张重画


递归扩展从单模型迁到multi-agent：RecursiveMAS把整个多agent系统cast成一次latent-space递归计算，9个benchmark平均+8.3%accuracy、token用量降34.6%-75.6%、推理1.2-2.4x加速，给multi-agent补上一个明确的scaling旋钮。


T2I精修，整张重画反而更彻底：editing-based路线把可改空间压窄导致改不干净，UniGenBench++从61.53推到77.41，给"局部精修"这条默认路径打个问号。


音视频联合训练，先单训再耦合：Mutual Forcing用两阶段训练加自蒸馏，4-8步匹配50步基线、省掉外置teacher模型，自回归流式生成的recipe更直接。


非对称辩论给定制guardrail造数据：BARRED只要task description加少量未标注样本就能合成训练语料，跑赢闭源大模型和专用guardrail，思路对任何边界模糊的分类任务都能挪用。


也值得关注

DV-World把数据可视化agent评测从code sandbox拉回真实工作流 — spreadsheet原生操作、跨平台演化、意图对齐，260个任务覆盖三个域，直接戳现有DV agent在single-language creation-only之外的能力上限。
用skill graph合成terminal agent的训练任务 — 缓解高质量执行trajectory长期稀缺这个瓶颈，给命令行agent补一条训练数据通道。
FAMA：failure-aware的meta-agentic框架（ACL） — 让开源LLM在conversational tool-use benchmark里从自己的失败模式中学着矫正。
视频扩散模型从pretrain到deployment的系统化post-train流程 — 针对prompt敏感、时序退化等系统性gap，给一套包含RLHF/GRPO的完整训练框架。
LVLM幻觉缓解换位置：从decoding挪到prefill-time — 不再在decoding阶段动steering vector，改在prefill期介入。
CORAL：多语RAG需要adaptive retrieval loop（ACL） — 检索空间不该固定为query/doc翻译或多语embedding，文化对齐查询要动态展开。
policy gradient里的"错reward"分类学 — Princeton指出imperfect proxy reward不都是坏事，某些类型甚至对训练有帮助。
用this/that、这/那做probe测LLM是否习得具身认知 — 6400条母语者回应做跨语对照，看LLM能否从纯文本里学到空间指示与文化变体。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)