开源搜索Agent逆袭，Agent Skills神话破灭


            
        March 19, 2026
    
    
开源搜索Agent逆袭，Agent Skills神话破灭


1.17万条合成数据训出的开源搜索Agent击败闭源对手，OpenSeeker在BrowseComp上几乎翻倍第二名，数据和模型全开源，Deep Research不再是大厂专利。


跨层注意力让深层信息不再被稀释：MoDA让每个注意力头同时关注当前层和前层的KV，仅3.7%额外计算换来下游任务平均+2.11%，已开源。


给Agent注入技能听起来很美，实测39/49个技能零提升。SWE-Skills-Bench首次严格评估Agent Skills实际效用，平均增益仅+1.2%。


一位数学家零代码10天完成等离子体定理的Lean 4形式化，AI辅助数学研究的完整工作流首次被公开复盘，成本$200。


也值得关注

人-场景交互重建直接部署到人形机器人 — HSImul3R用物理仿真器做双向优化监督，弥合视觉重建与物理引擎之间的鸿沟（141 HF upvotes）。原文
只用2D图片训练就能编辑视频DiT — ViFeEdit通过架构重参数化解耦空间独立性，不需要任何视频训练数据。原文
首尔实景城市级World Model — SWM用检索增强把视频生成锚定在真实街景，轨迹跨越数百米仍保持空间一致性（121 HF upvotes）。原文
让代码模型和测试模型对抗进化 — Code-A1的架构分离消除了自我串通风险，白盒测试生成变得安全可用。原文
「Wait」不是推理的关键，不确定性外化才是 — 信息论框架统一解释LLM推理中的「Aha moment」，纯程序性推理会信息停滞。原文
464人红队竞赛：所有前沿模型都能被间接注入攻击 — Claude Opus 4.5最抗攻（0.5%成功率），Gemini 2.5 Pro最脆弱（8.5%），能力和鲁棒性弱相关。原文
幻觉检测重新定义为认知轨迹的几何异常 — 信息论探针把VLM生成映射到低维认知状态空间，弱监督下仍达SOTA。原文
Aleph Alpha发布70B无tokenizer模型 — HAT架构直接在字节级工作，复用Llama 3.1骨干，德英双语都超过原版Llama。原文
统一多模态模型推理加速1.78-2.01x，无需训练 — FlashU针对生成和理解任务分别定制优化策略（CVPR 2026）。原文

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)