Agent开始学会自己变强，也学会少用工具


            
        May 30, 2026
    
    
Agent开始学会自己变强，也学会少用工具


国产MoE开始把「自我进化」写进路线图：MiniMax-M2系列230B参数只激活9.8B，端到端为agent场景设计，最新checkpoint已能自己debug训练、改自己的脚手架


并行推理最大的浪费，是每条分支各想各的：CPT让多条思考分支实时共享中间发现，免训练，在数学竞赛题上把「准确率-延迟」曲线整体往前推


Agent用RL训着训着，工具就乱调了：AKBE让模型自己分清「该查工具还是靠脑子」，工具调用减18%、准确率反升，工具效率提25%


技能不该是一次性脚本：MUSE-Autoskill给agent的技能加上完整生命周期，能跨任务复用、带经验、还能跑单测自我修正


也值得关注

比起「能不能替代人」，benchmark开始问「人到底想让agent干什么」 — JobBench覆盖35种职业130个真实办公任务，最强的Claude Opus 4.7也只做到45.9%，刻意把目标从「替代」掰回「增强」。
让VLM玩狼人杀，发现它一半的指控都是张口就来 — QUACK逐句核对agent发言与真实轨迹，最强模型仍有15.1%的空间描述是幻觉，半数指控没有证据支撑。
Agent能记住你的偏好吗？长期交互一测就露馅 — VitaBench 2.0把任务做成按时间排序的用户序列，偏好藏在零碎日常里，要求agent持续抽取更新，前沿模型仍有明显差距。
分钟级音视频生成，没人好好测过它在长时段崩在哪 — LongAV-Compass用284个用例覆盖文/图/视频三种条件，从身份一致性到叙事连贯拉了20多个维度横评11个模型。
多视角3D重建一遇到画质退化就翻车 — GARD直接在重建模型的特征空间里做扩散去噪，几何和高清RGB图像一起恢复。
科学模拟想要又快又准，RecFM声称20倍提速还更准 — 递归flow matching靠跨尺度自一致，2-4步就逼近多步求解器，误差还降了15%以上。
归一化层里那个不起眼的缩放向量，删了模型就训不好 — 参数占比可忽略，却通过「自放大预条件」效应改善优化，论文还给出三个轻量改进。
「LLM能内省」这个结论，可能下得太早了 — 一篇reality check指出，模型所谓的自我状态识别，更像是泛泛的异常检测和模式匹配，控制变量后接近随机。
遗忘请求一个接一个来，每次都微调成本太高 — ICCU不改参数，从遗忘数据里归纳出可读的拒绝规则，推理时叠加，规则可组合、互不干扰。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)