奥赛金牌打包成两步配方
- 奥赛金牌从单点能力打包成两步配方:reverse-perplexity curriculum SFT 加两阶段 RL,30B-A3B backbone 拿下 IMO/IPhO 金牌;能否跨 backbone 复现是判断价值的关键。
- 多轮 agent 的奖励信号粒度太粗——SDAR 把 self-distillation 降级为门控辅助目标,在 ALFWorld、WebShop、Search-QA 上比 GRPO 提升 7–10 个点。
- AR 的精度和 diffusion 的速度第一次同框:Orthrus 用 dual-architecture 共享 KV cache,声称 lossless inference、最高 7.8 倍加速。
- 镜头控制的视频生成可能根本不用专门 encoder:Warp-as-History 把相机轨迹形变当伪历史帧,冻结模型即有 zero-shot 跟随能力。
- 多跳 RAG 的瓶颈不在检索而在中间状态——PyRAG 把推理写成可执行 Python,错误由执行环境抓而非模型自检。
也值得关注
- MemEye 把"答案能从 caption 推出来"这条诟病当回事 — 评测专挑必须保留细粒度视觉证据才能答对的任务,给多模态 agent memory 一个更硬的标尺。
- Multi-agent failure attribution 的综述 — 错误如何跨 agent 传播且难以诊断,想做 multi-agent 产品的人可以扫一眼。
- Many-shot ICL 的 scaling 规律在 CoT/reasoning 任务上不成立 — 给做 long-context reasoning prompt 调优的人一个反直觉提醒。
- Orchard:面向 agent 训练(不仅是 orchestration)的开源框架 — 填的是"open-source agent training infra"这个空档。
- 把 reasoning RL 的自改进从"造数据"升到"造环境" — zero-data 自演化的一种具体形式。
- SFT data selection 在 generalization 与 extrapolation 之间存在 tradeoff — 过去 perplexity/length/difficulty 启发式结论不一致的根本原因。
- RealICU 不再把"医生历史动作"当 ground truth — ICU 长上下文临床数据的 agent benchmark,医疗 AI 评测的一次方法论升级。
- VGGT-Edit:Feed-forward 的 3D 场景编辑 — 用 residual field prediction 做动态响应,3D 内容工具链相关方向值得一看。
- Video2GUI 把视频转成 GUI 交互轨迹 — 用于 GUI agent 预训练,直击 GUI agent 数据稀缺的痛点。
- Nexus:时间序列预测+文本上下文的 agentic 框架 — TSFM 和 LLM 拼接的一种工程形态。
Don't miss what's next. Subscribe to AI论文简报: