AI论文简报

Archives
Log in
May 16, 2026

奥赛金牌打包成两步配方

  • 奥赛金牌从单点能力打包成两步配方:reverse-perplexity curriculum SFT 加两阶段 RL,30B-A3B backbone 拿下 IMO/IPhO 金牌;能否跨 backbone 复现是判断价值的关键。
  • 多轮 agent 的奖励信号粒度太粗——SDAR 把 self-distillation 降级为门控辅助目标,在 ALFWorld、WebShop、Search-QA 上比 GRPO 提升 7–10 个点。
  • AR 的精度和 diffusion 的速度第一次同框:Orthrus 用 dual-architecture 共享 KV cache,声称 lossless inference、最高 7.8 倍加速。
  • 镜头控制的视频生成可能根本不用专门 encoder:Warp-as-History 把相机轨迹形变当伪历史帧,冻结模型即有 zero-shot 跟随能力。
  • 多跳 RAG 的瓶颈不在检索而在中间状态——PyRAG 把推理写成可执行 Python,错误由执行环境抓而非模型自检。

也值得关注

  • MemEye 把"答案能从 caption 推出来"这条诟病当回事 — 评测专挑必须保留细粒度视觉证据才能答对的任务,给多模态 agent memory 一个更硬的标尺。
  • Multi-agent failure attribution 的综述 — 错误如何跨 agent 传播且难以诊断,想做 multi-agent 产品的人可以扫一眼。
  • Many-shot ICL 的 scaling 规律在 CoT/reasoning 任务上不成立 — 给做 long-context reasoning prompt 调优的人一个反直觉提醒。
  • Orchard:面向 agent 训练(不仅是 orchestration)的开源框架 — 填的是"open-source agent training infra"这个空档。
  • 把 reasoning RL 的自改进从"造数据"升到"造环境" — zero-data 自演化的一种具体形式。
  • SFT data selection 在 generalization 与 extrapolation 之间存在 tradeoff — 过去 perplexity/length/difficulty 启发式结论不一致的根本原因。
  • RealICU 不再把"医生历史动作"当 ground truth — ICU 长上下文临床数据的 agent benchmark,医疗 AI 评测的一次方法论升级。
  • VGGT-Edit:Feed-forward 的 3D 场景编辑 — 用 residual field prediction 做动态响应,3D 内容工具链相关方向值得一看。
  • Video2GUI 把视频转成 GUI 交互轨迹 — 用于 GUI agent 预训练,直击 GUI agent 数据稀缺的痛点。
  • Nexus:时间序列预测+文本上下文的 agentic 框架 — TSFM 和 LLM 拼接的一种工程形态。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.