BES双向搜索·多agent世界模型


            
        May 31, 2026
    
    
BES双向搜索·多agent世界模型


BES把推理搜索从单向扩展拆出来:前向加进化算子跳出模型prior的"熵壳",后向从答案端递归分解任务给前向喂密集反馈,理论上指数级降搜索样本需求


DenoiseRL用模型自己跑出的失败prefix当训练材料——目标不是让模型避免犯错,而是教它走偏之后能接回正轨,这种"被打断能续上"的能力在长链agent场景比少犯错更要紧


MemTrace把记忆pipeline抽成可执行evolution graph,失败归因从经验排查变成图分析;污染模式集中在"信息丢失"和"检索错位"两类操作级问题


GEM让VLM在预训练里被迫生成深度图:生成不是目的,是用来逼模型把空间结构编码进表征,补"低层物理知识"这门VLM没修过的课


Gamma-World把交互式视频世界模型扩到多agent共享空间——Simplex Rotary把agent身份编进RoPE几何(免学习),Sparse Hub Attention把cross-agent交互从平方降到线性,2个agent训出来推到4个不重训


也值得关注

主动推荐RL训练的path-level reward有两个policy gradient估计偏差 — 论文给出修正方法,做长horizon RL路线的团队可借鉴。原文
小computer-use agent域特化,暴力合成数据不如从弱点反推选trace — 给中小团队部署专用agent提供了一条更经济的训练数据路径。原文
稀疏注意力+HiF8量化+RL三件套拼成视频生成pipeline — 单项技术都不新,组合落地的工程参数有参考价值。原文
把agent skill的更新做成类梯度下降的优化形式 — 跟最近MUSE-Autoskill的技能管理对照看,切入角度不同。原文
hybrid-reasoning LLM的thinking-mode切换策略首次有统一评测 — 横向比较终于可比,做混合推理路由的可拿来选基线。原文
异步函数调用的多任务评测把工具响应延迟这个维度纳入 — 一直被绕开的延迟维度终于进了benchmark,做工具调用框架的可关注。原文
让model写的代码反过来塑造runtime本身 — 偏conceptual的设计探索,关心agent架构演化方向的可读。原文

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)