10.6k轨迹SFT追平RL流水线


            
        May 8, 2026
    
    
10.6k轨迹SFT追平RL流水线


10.6k条精筛轨迹纯SFT就追平四阶段RL流水线：OpenSeeker-v2扩大knowledge graph和tool set、配上严格的low-step filtering，30B模型在BrowseComp/HLE/xbench上反超走完CPT+SFT+RL的Tongyi DeepResearch——值得砸资源的环节正在从优化器下移到轨迹合成。


RL post-training的rollout第一次有了可对照的checklist：新综述把生命周期拆成Generate/Filter/Control/Replay四步，配可靠性/覆盖率/成本敏感度的三维评估和病症映射索引。


120K参数Mamba在普通CPU上压赢LZMA：StateSMix在线训练+sparse n-gram+算术编码，纯C实现不要GPU，enwik8 1MB上比xz -9e好8.7%，但优势随文件变大快速衰减到0.7%。


<50美元合成数据让开源ASR在长尾语言上做到商用3倍：Indic TTS合成约22000条实体密集语音+LoRA微调Whisper-Telugu，Entity-Hit-Rate从0.027拉到0.473，20条真人录音sanity check缓解了同TTS自循环担忧。


也值得关注

10个临床领域的多轮agent训练环境上线 — gymnasium兼容、覆盖问诊到下治疗决策，配套此前PhysicianBench（评测层）的训练层。
诊断agent接入Fitbit跑日常自述症状 — 从精心策划的case跨到真人日常自述，性能掉到什么程度值得记录。
Workspace-Bench把重点放在跨文件依赖 — workspace级agent benchmark，比单文件任务更贴近真实办公场景。
iWorld-Bench给世界模型补一套大规模评测 — ICML收的interactive world model benchmark，配统一动作生成框架。
PatRe把专利审查建模成多轮office action+rebuttal — 第一次模拟同行评审式的迭代过程，跳出静态分类视角。
腾讯AniMatrix把动漫的"违反物理"当先验训 — smear/impact frame/chibi shift，物理偏置的video model会把这些抹平。
Apple HeadsUp做前向3D Gaussian头部重建 — 多相机大规模采集，工程上把latent压得很紧。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)