code agent跨仓库不到45%
- Code agent出了单仓库就不灵,BeyondSWE四维度500实例评测,最强模型成功率不到45%,加搜索也帮不上忙
- 合作训练、独立部署:HACRL让异构agent共享验证rollout互相补课。采样成本减半,推理时零额外开销
- 小模型筛记忆比大模型翻全量历史更靠谱——MemSifter用RL训练代理检索器,奖励直接挂钩任务完成度,8个基准全部达标
- 一个编码器通吃五类点云。Utonia在密度和几何特性完全不同的五个域做到统一表征,133个upvotes拿下今天HF最高热度
也值得关注
- 把CFG重新理解为PID控制器 — 解释了固定guidance scale为何有局限,提出自适应调节方案。
- 统一多模态模型的生成能力到底有没有帮助理解? — 30个子任务的系统性测试给出分场景答案。
- 无需配对数据的视频编辑 — 用稀疏控制点实现局部编辑的时间和背景一致性。
- Deep think越想越多反而放大错误 — PRM作为实时正确性信号可缓解population enhancement瓶颈。
- 原生多模态模型的设计空间实验 — Transfusion框架下从零训练,哪些因素最关键。
- 世界模型不需要decoder — 在表征空间直接预测下一步embedding,MBRL效果更好。
- LM agent在长上下文中会被上下文压力带偏 — 偏离原始目标,最新模型也不例外。
- 测试时自适应:LLM给自己出题再自我微调 — 针对当前问题生成合成训练数据的meta-learning方案。
- 视频扩散模型水印在生成过程中直接嵌入 — 盲提取,不影响质量。
- 更深的推理链不一定更对 — 数学推理模型61%准确率中混合了可靠和不可靠的推理路径。
Don't miss what's next. Subscribe to AI论文简报: