AI论文简报

Archives
Log in
June 4, 2026

20B搜索器外置状态打平前沿

  • 给搜索agent删过期观察省上下文,收益是倒U形而非单调:从4B到284B、三种检索器扫一遍,强检索器配中等模型最划算,模型本身够强时反而把有用证据也删掉、准确率掉点。
  • 把"记账"从策略外置给环境,20B搜索器平均recall 0.730:比次强开源搜索子agent高11.4分,还在held-out迁移benchmark上提升最明显。
  • 报告里塞图容易,塞对没人验过:TVIR用100个专家curate的多模态深研任务,把"视觉元素的事实可靠性和与正文对齐"单独拎出来当评测维度。
  • 零标注教模型推断意图:MindZero用planner的行为可解释性当自监督奖励,训练用重推理、部署蒸成单次前向,在gridworld和家居场景超过又慢又贵的model-based方法。

也值得关注

  • 给agentic search扩test-time compute,正确答案稀疏、靠分数选反而踩模型校准的坑 — FineVerify把问题拆成可核验的子问题逐条验证候选,相当于把"判对错"也从策略里拆出去结构化做,是今天masking/externalize思路的第三种下刀法。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.