20B搜索器外置状态打平前沿


            
        June 4, 2026
    
    
20B搜索器外置状态打平前沿


给搜索agent删过期观察省上下文，收益是倒U形而非单调：从4B到284B、三种检索器扫一遍，强检索器配中等模型最划算，模型本身够强时反而把有用证据也删掉、准确率掉点。


把"记账"从策略外置给环境，20B搜索器平均recall 0.730：比次强开源搜索子agent高11.4分，还在held-out迁移benchmark上提升最明显。


报告里塞图容易，塞对没人验过：TVIR用100个专家curate的多模态深研任务，把"视觉元素的事实可靠性和与正文对齐"单独拎出来当评测维度。


零标注教模型推断意图：MindZero用planner的行为可解释性当自监督奖励，训练用重推理、部署蒸成单次前向，在gridworld和家居场景超过又慢又贵的model-based方法。


也值得关注

给agentic search扩test-time compute，正确答案稀疏、靠分数选反而踩模型校准的坑 — FineVerify把问题拆成可核验的子问题逐条验证候选，相当于把"判对错"也从策略里拆出去结构化做，是今天masking/externalize思路的第三种下刀法。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)