AI论文简报

Archives
Log in
March 16, 2026

1/4预算Agent反超4倍暴力采样

  • SWE Agent训练的瓶颈是可执行环境而非算法,OpenSWE开源45,320个Docker化训练环境,覆盖12,800+仓库,构建成本147万美元揭示了学术组难以独立填补这一基础设施空白。
  • 预算感知的树搜索让Agent在1/4资源下胜过4倍暴力采样——用相对进展评分替代LLM自评,无需训练即可集成到现有Agent系统。
  • 传统embedding基准成绩无法预测记忆检索能力。 LMEB覆盖四类记忆的193个任务,发现两个榜单表现正交,模型规模也不是决定因素。
  • 酶催化的"识别→适应"两阶段被显式建模,MoE按活性位点类型路由,分布外泛化更好:对药物发现中的新型酶-底物组合更具实用价值。

也值得关注

  • 多Agent对话框架拆解复杂场景的构图难题 — 四个专职Agent分工处理属性绑定和空间布局,降低单模型一次性生成的错误率。
  • GRPO在T2I flow model上探索不足,增广条件空间破局 — 把稀疏的prompt采样变成密集覆盖,让奖励信号更稳定地引导生成质量。
  • 第一人称视角下理解用户手指指向 — 当前MLLM在egocentric指向理解上表现不佳,这是下一代AR助手的关键能力缺口。
  • ICL示例配置敏感且计算昂贵,HIFICL高保真蒸馏 — 用数学框架分析影响因子,把多示例ICL的效果压缩到零示例推理中。
  • 不靠GNSS的全局定位:地面图×卫星图跨视角匹配 — 双轴变换学习视角不变表征,解决遮挡和多径效应下的姿态估计。
  • 机器遗忘不只是删数据,还要保持知识结构 — 删除目标数据后留存知识之间的语义关系应被保持,否则模型整体能力退化。
  • xAI团队:从局部解释聚合出全局决策模式 — 针对时间序列分类,尊重时序依赖地从单样本解释中提取类级别的判别模式。
  • 离线教师蒸馏+prompt tuning低成本适配遥感VLM — 通用视觉语言模型迁移到遥感领域的轻量方案,不需要大规模标注数据。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.