code agent跨仓库不到45%


            
        March 5, 2026
    
    
code agent跨仓库不到45%


Code agent出了单仓库就不灵，BeyondSWE四维度500实例评测，最强模型成功率不到45%，加搜索也帮不上忙


合作训练、独立部署：HACRL让异构agent共享验证rollout互相补课。采样成本减半，推理时零额外开销


小模型筛记忆比大模型翻全量历史更靠谱——MemSifter用RL训练代理检索器，奖励直接挂钩任务完成度，8个基准全部达标


一个编码器通吃五类点云。Utonia在密度和几何特性完全不同的五个域做到统一表征，133个upvotes拿下今天HF最高热度


也值得关注

把CFG重新理解为PID控制器 — 解释了固定guidance scale为何有局限，提出自适应调节方案。
统一多模态模型的生成能力到底有没有帮助理解？ — 30个子任务的系统性测试给出分场景答案。
无需配对数据的视频编辑 — 用稀疏控制点实现局部编辑的时间和背景一致性。
Deep think越想越多反而放大错误 — PRM作为实时正确性信号可缓解population enhancement瓶颈。
原生多模态模型的设计空间实验 — Transfusion框架下从零训练，哪些因素最关键。
世界模型不需要decoder — 在表征空间直接预测下一步embedding，MBRL效果更好。
LM agent在长上下文中会被上下文压力带偏 — 偏离原始目标，最新模型也不例外。
测试时自适应：LLM给自己出题再自我微调 — 针对当前问题生成合成训练数据的meta-learning方案。
视频扩散模型水印在生成过程中直接嵌入 — 盲提取，不影响质量。
更深的推理链不一定更对 — 数学推理模型61%准确率中混合了可靠和不可靠的推理路径。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)