1/4预算Agent反超4倍暴力采样


            
        March 16, 2026
    
    
1/4预算Agent反超4倍暴力采样


SWE Agent训练的瓶颈是可执行环境而非算法，OpenSWE开源45,320个Docker化训练环境，覆盖12,800+仓库，构建成本147万美元揭示了学术组难以独立填补这一基础设施空白。


预算感知的树搜索让Agent在1/4资源下胜过4倍暴力采样——用相对进展评分替代LLM自评，无需训练即可集成到现有Agent系统。


传统embedding基准成绩无法预测记忆检索能力。 LMEB覆盖四类记忆的193个任务，发现两个榜单表现正交，模型规模也不是决定因素。


酶催化的"识别→适应"两阶段被显式建模，MoE按活性位点类型路由，分布外泛化更好：对药物发现中的新型酶-底物组合更具实用价值。


也值得关注

多Agent对话框架拆解复杂场景的构图难题 — 四个专职Agent分工处理属性绑定和空间布局，降低单模型一次性生成的错误率。
GRPO在T2I flow model上探索不足，增广条件空间破局 — 把稀疏的prompt采样变成密集覆盖，让奖励信号更稳定地引导生成质量。
第一人称视角下理解用户手指指向 — 当前MLLM在egocentric指向理解上表现不佳，这是下一代AR助手的关键能力缺口。
ICL示例配置敏感且计算昂贵，HIFICL高保真蒸馏 — 用数学框架分析影响因子，把多示例ICL的效果压缩到零示例推理中。
不靠GNSS的全局定位：地面图×卫星图跨视角匹配 — 双轴变换学习视角不变表征，解决遮挡和多径效应下的姿态估计。
机器遗忘不只是删数据，还要保持知识结构 — 删除目标数据后留存知识之间的语义关系应被保持，否则模型整体能力退化。
xAI团队：从局部解释聚合出全局决策模式 — 针对时间序列分类，尊重时序依赖地从单样本解释中提取类级别的判别模式。
离线教师蒸馏+prompt tuning低成本适配遥感VLM — 通用视觉语言模型迁移到遥感领域的轻量方案，不需要大规模标注数据。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)