奥赛金牌打包成两步配方


            
        May 16, 2026
    
    
奥赛金牌打包成两步配方


奥赛金牌从单点能力打包成两步配方：reverse-perplexity curriculum SFT 加两阶段 RL，30B-A3B backbone 拿下 IMO/IPhO 金牌；能否跨 backbone 复现是判断价值的关键。


多轮 agent 的奖励信号粒度太粗——SDAR 把 self-distillation 降级为门控辅助目标，在 ALFWorld、WebShop、Search-QA 上比 GRPO 提升 7–10 个点。


AR 的精度和 diffusion 的速度第一次同框：Orthrus 用 dual-architecture 共享 KV cache，声称 lossless inference、最高 7.8 倍加速。


镜头控制的视频生成可能根本不用专门 encoder：Warp-as-History 把相机轨迹形变当伪历史帧，冻结模型即有 zero-shot 跟随能力。


多跳 RAG 的瓶颈不在检索而在中间状态——PyRAG 把推理写成可执行 Python，错误由执行环境抓而非模型自检。


也值得关注

MemEye 把"答案能从 caption 推出来"这条诟病当回事 — 评测专挑必须保留细粒度视觉证据才能答对的任务，给多模态 agent memory 一个更硬的标尺。
Multi-agent failure attribution 的综述 — 错误如何跨 agent 传播且难以诊断，想做 multi-agent 产品的人可以扫一眼。
Many-shot ICL 的 scaling 规律在 CoT/reasoning 任务上不成立 — 给做 long-context reasoning prompt 调优的人一个反直觉提醒。
Orchard：面向 agent 训练（不仅是 orchestration）的开源框架 — 填的是"open-source agent training infra"这个空档。
把 reasoning RL 的自改进从"造数据"升到"造环境" — zero-data 自演化的一种具体形式。
SFT data selection 在 generalization 与 extrapolation 之间存在 tradeoff — 过去 perplexity/length/difficulty 启发式结论不一致的根本原因。
RealICU 不再把"医生历史动作"当 ground truth — ICU 长上下文临床数据的 agent benchmark，医疗 AI 评测的一次方法论升级。
VGGT-Edit：Feed-forward 的 3D 场景编辑 — 用 residual field prediction 做动态响应，3D 内容工具链相关方向值得一看。
Video2GUI 把视频转成 GUI 交互轨迹 — 用于 GUI agent 预训练，直击 GUI agent 数据稀缺的痛点。
Nexus：时间序列预测+文本上下文的 agentic 框架 — TSFM 和 LLM 拼接的一种工程形态。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)