$15跑出一篇论文,医疗agent仅28%


            
        May 22, 2026
    
    
$15跑出一篇论文,医疗agent仅28%


Auto-research成本曲线过线:$15跑出一篇完整论文,long-horizon agent能接管文献综述+实验+起草,但前沿LLM仍捏造结果、漏检错误,end-to-end全自动距主流会议门槛还有一段距离。


OProver把compiler反馈loop挪进训练侧,失败轨迹+verifier修复直接当SFT数据,开源whole-proof prover里MiniF2F 93.3% Pass@32当前最佳一档。


CHI-Bench把policy密度、多角色、多轮中间交互三件事拼到同一条流水线评测,最好的agent配置只过28%,严格pass^3没人到20%。


CompactAttention冲着chunked prefill的workload缺口去——把2D block-sparse mask从执行计划降级为KV选择信号,128K context上attention拿到2.72倍加速且精度持平dense。


也值得关注

工具调用、电脑使用、多模态推理过去各自评测,这篇拼到一条流水线测真实工作流 — 用真实专业任务逼出tool-using agent的端到端失败模式。
training-free的n-gram memory模块 — 给MoE和需要训memory embedding的方案外加一条plug-and-play路径。
自动生成抽象推理题,可形式验证那部分是关键 — 避开人工标注成本和memorization污染,精度评分不再被数据泄漏拖累。
SFT注入新知识不掉原能力 — distribution-aligned self-distillation做到不依赖外部teacher,后训练不再用原能力换新能力。
GPU kernel优化agent的多轮工作流评测,带泛化到没见过配置的setting — 把kernel agent从单点能力测试推到generalization-aware评测。
模型合并完再量化的expert-guided方案 — 把merging和quantization压成低资源部署的一道流水线。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)