10K数据训出4B agent,MoE扩容省32%
- 10K开放数据训出4B deep research agent:DR-Venus用agentic SFT+turn-level RL的两阶段recipe训出edge可部署的agent,能力超9B以下agentic模型并向30B级缩小差距
- MoE扩容复用现有expert省32% GPU时间:Expert Upcycling从已训checkpoint做expert复制+router扩展,再让expert重新分化;按梯度重要性挑expert复制能再放大3倍收益
- 6000段真实coding agent会话首次公开:SWE-chat显示用户使用呈双峰分布——41%几乎全托给agent、23%自己写所有代码,agent代码只44%被采纳、44%回合在pushback
- 四种架构学数字殊途同归,但仍藏二阶差异:Transformer/Linear RNN/LSTM/词向量都学出T=2,5,10的Fourier域周期表征,能否mod-T线性分类还取决于数据格式和优化器
也值得关注
- agent skill的持续学习评测,三层分级打分 — skill质量、执行轨迹、任务结果分别评估,沿着SkillFlow的方向把评测分辨率做细。SkillLearnBench
- LLM生成游戏代码的痛点从"单次能跑"推向"迭代式累积" — 关注版本间经验复用,单shot生成解决不了的事下一步靠迭代。CreativeGame
- 用surrogate model近似黑盒LLM在医疗预测中的行为 — 路径可作为参考,效果还要看全文细节。Surrogate modeling for LLMs
Don't miss what's next. Subscribe to AI论文简报: