完整trace让多agent归因准76%


            
        April 27, 2026
    
    
完整trace让多agent归因准76%


多agent debug从感觉变成数字:TraceElephant把failure attribution做成显式benchmark,完整执行trace比只看agent输出能把归因准确率提升76%。


主模型不动也能让关键证据被看见——HiLight训练一个旁路Actor在输入侧加emphasis,主模型frozen,学到的策略可零样本迁移到闭源API。


大小模型分流改成模型自己学,RouteLMT把"该不该升级到大模型"从手调阈值变成学marginal gain,信号只取自小模型自身的token表示——不过只在翻译场景验证。


音频生成补上统一架构这一课。UniSonate把TTS/TTM/TTA塞进一个text-instruction模型,前两类拿到SOTA、TTA仅competitive,统一带来的折损位置很典型。


也值得关注

给被滥用的"world model"一词收拢共同语言 — 按capability层级×scaling laws拆出一份taxonomy,试图把agent领域围绕这个词的混乱定义统一成可比较的轴。原文
agent发现/匹配第一次有了benchmark — 用户要做一件事、从一堆agent里挑能用的那个,这件事过去基本靠目录浏览,现在终于能被系统性评测。原文
借水印思路在decoding时约束生成贴input context — 不重训也不改权重,直接压context-faithfulness hallucination,适合作为RAG后置防线评估。原文
KG-RAG retrieval语义错位的老问题换个角度切 — 不从图结构本身改起,改从evidence path mining提取证据链来对齐查询语义。原文
LLM内部可能存在专门负责personalization的"preference heads" — 用机制可解释性方法去验证这个假设,试图把目前靠prompt和微调做的个性化追溯到具体attention head。原文
云端visual localization不再传原图也不传keypoints — 用几何双线混淆替换原图特征做pose estimation,CVPR工作。原文
NL2SQL生产里的歧义和不可回答query终于进同一个benchmark — 多源歧义+unanswerability是现有评测普遍回避的两类棘手case,这次一并补上。原文
LLM跨constructions的syntactic处理是不是复用同一套neural mechanism — 和语言学交叉的细粒度内部机制研究。原文
gloss-free手语翻译用selective contrastive learning对齐visual signs和text — 不依赖昂贵的gloss标注,直接处理视觉信号和文本之间的modality mismatch。原文

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)