AI论文简报

Archives
Log in
May 8, 2026

10.6k轨迹SFT追平RL流水线

  • 10.6k条精筛轨迹纯SFT就追平四阶段RL流水线:OpenSeeker-v2扩大knowledge graph和tool set、配上严格的low-step filtering,30B模型在BrowseComp/HLE/xbench上反超走完CPT+SFT+RL的Tongyi DeepResearch——值得砸资源的环节正在从优化器下移到轨迹合成。
  • RL post-training的rollout第一次有了可对照的checklist:新综述把生命周期拆成Generate/Filter/Control/Replay四步,配可靠性/覆盖率/成本敏感度的三维评估和病症映射索引。
  • 120K参数Mamba在普通CPU上压赢LZMA:StateSMix在线训练+sparse n-gram+算术编码,纯C实现不要GPU,enwik8 1MB上比xz -9e好8.7%,但优势随文件变大快速衰减到0.7%。
  • <50美元合成数据让开源ASR在长尾语言上做到商用3倍:Indic TTS合成约22000条实体密集语音+LoRA微调Whisper-Telugu,Entity-Hit-Rate从0.027拉到0.473,20条真人录音sanity check缓解了同TTS自循环担忧。

也值得关注

  • 10个临床领域的多轮agent训练环境上线 — gymnasium兼容、覆盖问诊到下治疗决策,配套此前PhysicianBench(评测层)的训练层。
  • 诊断agent接入Fitbit跑日常自述症状 — 从精心策划的case跨到真人日常自述,性能掉到什么程度值得记录。
  • Workspace-Bench把重点放在跨文件依赖 — workspace级agent benchmark,比单文件任务更贴近真实办公场景。
  • iWorld-Bench给世界模型补一套大规模评测 — ICML收的interactive world model benchmark,配统一动作生成框架。
  • PatRe把专利审查建模成多轮office action+rebuttal — 第一次模拟同行评审式的迭代过程,跳出静态分类视角。
  • 腾讯AniMatrix把动漫的"违反物理"当先验训 — smear/impact frame/chibi shift,物理偏置的video model会把这些抹平。
  • Apple HeadsUp做前向3D Gaussian头部重建 — 多相机大规模采集,工程上把latent压得很紧。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.