Agent开始学会自己变强,也学会少用工具
- 国产MoE开始把「自我进化」写进路线图:MiniMax-M2系列230B参数只激活9.8B,端到端为agent场景设计,最新checkpoint已能自己debug训练、改自己的脚手架
- 并行推理最大的浪费,是每条分支各想各的:CPT让多条思考分支实时共享中间发现,免训练,在数学竞赛题上把「准确率-延迟」曲线整体往前推
- Agent用RL训着训着,工具就乱调了:AKBE让模型自己分清「该查工具还是靠脑子」,工具调用减18%、准确率反升,工具效率提25%
- 技能不该是一次性脚本:MUSE-Autoskill给agent的技能加上完整生命周期,能跨任务复用、带经验、还能跑单测自我修正
也值得关注
- 比起「能不能替代人」,benchmark开始问「人到底想让agent干什么」 — JobBench覆盖35种职业130个真实办公任务,最强的Claude Opus 4.7也只做到45.9%,刻意把目标从「替代」掰回「增强」。
- 让VLM玩狼人杀,发现它一半的指控都是张口就来 — QUACK逐句核对agent发言与真实轨迹,最强模型仍有15.1%的空间描述是幻觉,半数指控没有证据支撑。
- Agent能记住你的偏好吗?长期交互一测就露馅 — VitaBench 2.0把任务做成按时间排序的用户序列,偏好藏在零碎日常里,要求agent持续抽取更新,前沿模型仍有明显差距。
- 分钟级音视频生成,没人好好测过它在长时段崩在哪 — LongAV-Compass用284个用例覆盖文/图/视频三种条件,从身份一致性到叙事连贯拉了20多个维度横评11个模型。
- 多视角3D重建一遇到画质退化就翻车 — GARD直接在重建模型的特征空间里做扩散去噪,几何和高清RGB图像一起恢复。
- 科学模拟想要又快又准,RecFM声称20倍提速还更准 — 递归flow matching靠跨尺度自一致,2-4步就逼近多步求解器,误差还降了15%以上。
- 归一化层里那个不起眼的缩放向量,删了模型就训不好 — 参数占比可忽略,却通过「自放大预条件」效应改善优化,论文还给出三个轻量改进。
- 「LLM能内省」这个结论,可能下得太早了 — 一篇reality check指出,模型所谓的自我状态识别,更像是泛泛的异常检测和模式匹配,控制变量后接近随机。
- 遗忘请求一个接一个来,每次都微调成本太高 — ICCU不改参数,从遗忘数据里归纳出可读的拒绝规则,推理时叠加,规则可组合、互不干扰。
Don't miss what's next. Subscribe to AI论文简报: