开源搜索Agent逆袭,Agent Skills神话破灭
- 1.17万条合成数据训出的开源搜索Agent击败闭源对手,OpenSeeker在BrowseComp上几乎翻倍第二名,数据和模型全开源,Deep Research不再是大厂专利。
- 跨层注意力让深层信息不再被稀释:MoDA让每个注意力头同时关注当前层和前层的KV,仅3.7%额外计算换来下游任务平均+2.11%,已开源。
- 给Agent注入技能听起来很美,实测39/49个技能零提升。SWE-Skills-Bench首次严格评估Agent Skills实际效用,平均增益仅+1.2%。
- 一位数学家零代码10天完成等离子体定理的Lean 4形式化,AI辅助数学研究的完整工作流首次被公开复盘,成本$200。
也值得关注
- 人-场景交互重建直接部署到人形机器人 — HSImul3R用物理仿真器做双向优化监督,弥合视觉重建与物理引擎之间的鸿沟(141 HF upvotes)。原文
- 只用2D图片训练就能编辑视频DiT — ViFeEdit通过架构重参数化解耦空间独立性,不需要任何视频训练数据。原文
- 首尔实景城市级World Model — SWM用检索增强把视频生成锚定在真实街景,轨迹跨越数百米仍保持空间一致性(121 HF upvotes)。原文
- 让代码模型和测试模型对抗进化 — Code-A1的架构分离消除了自我串通风险,白盒测试生成变得安全可用。原文
- 「Wait」不是推理的关键,不确定性外化才是 — 信息论框架统一解释LLM推理中的「Aha moment」,纯程序性推理会信息停滞。原文
- 464人红队竞赛:所有前沿模型都能被间接注入攻击 — Claude Opus 4.5最抗攻(0.5%成功率),Gemini 2.5 Pro最脆弱(8.5%),能力和鲁棒性弱相关。原文
- 幻觉检测重新定义为认知轨迹的几何异常 — 信息论探针把VLM生成映射到低维认知状态空间,弱监督下仍达SOTA。原文
- Aleph Alpha发布70B无tokenizer模型 — HAT架构直接在字节级工作,复用Llama 3.1骨干,德英双语都超过原版Llama。原文
- 统一多模态模型推理加速1.78-2.01x,无需训练 — FlashU针对生成和理解任务分别定制优化策略(CVPR 2026)。原文
Don't miss what's next. Subscribe to AI论文简报: