$15跑出一篇论文,医疗agent仅28%
- Auto-research成本曲线过线:$15跑出一篇完整论文,long-horizon agent能接管文献综述+实验+起草,但前沿LLM仍捏造结果、漏检错误,end-to-end全自动距主流会议门槛还有一段距离。
- OProver把compiler反馈loop挪进训练侧,失败轨迹+verifier修复直接当SFT数据,开源whole-proof prover里MiniF2F 93.3% Pass@32当前最佳一档。
- CHI-Bench把policy密度、多角色、多轮中间交互三件事拼到同一条流水线评测,最好的agent配置只过28%,严格pass^3没人到20%。
- CompactAttention冲着chunked prefill的workload缺口去——把2D block-sparse mask从执行计划降级为KV选择信号,128K context上attention拿到2.72倍加速且精度持平dense。
也值得关注
- 工具调用、电脑使用、多模态推理过去各自评测,这篇拼到一条流水线测真实工作流 — 用真实专业任务逼出tool-using agent的端到端失败模式。
- training-free的n-gram memory模块 — 给MoE和需要训memory embedding的方案外加一条plug-and-play路径。
- 自动生成抽象推理题,可形式验证那部分是关键 — 避开人工标注成本和memorization污染,精度评分不再被数据泄漏拖累。
- SFT注入新知识不掉原能力 — distribution-aligned self-distillation做到不依赖外部teacher,后训练不再用原能力换新能力。
- GPU kernel优化agent的多轮工作流评测,带泛化到没见过配置的setting — 把kernel agent从单点能力测试推到generalization-aware评测。
- 模型合并完再量化的expert-guided方案 — 把merging和quantization压成低资源部署的一道流水线。
Don't miss what's next. Subscribe to AI论文简报: