10K数据训出4B agent，MoE扩容省32%


            
        April 25, 2026
    
    
10K数据训出4B agent，MoE扩容省32%


10K开放数据训出4B deep research agent：DR-Venus用agentic SFT+turn-level RL的两阶段recipe训出edge可部署的agent，能力超9B以下agentic模型并向30B级缩小差距


MoE扩容复用现有expert省32% GPU时间：Expert Upcycling从已训checkpoint做expert复制+router扩展，再让expert重新分化；按梯度重要性挑expert复制能再放大3倍收益


6000段真实coding agent会话首次公开：SWE-chat显示用户使用呈双峰分布——41%几乎全托给agent、23%自己写所有代码，agent代码只44%被采纳、44%回合在pushback


四种架构学数字殊途同归，但仍藏二阶差异：Transformer/Linear RNN/LSTM/词向量都学出T=2,5,10的Fourier域周期表征，能否mod-T线性分类还取决于数据格式和优化器


也值得关注

agent skill的持续学习评测，三层分级打分 — skill质量、执行轨迹、任务结果分别评估，沿着SkillFlow的方向把评测分辨率做细。SkillLearnBench
LLM生成游戏代码的痛点从"单次能跑"推向"迭代式累积" — 关注版本间经验复用，单shot生成解决不了的事下一步靠迭代。CreativeGame
用surrogate model近似黑盒LLM在医疗预测中的行为 — 路径可作为参考，效果还要看全文细节。Surrogate modeling for LLMs

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)