AI论文简报

Archives
Log in
March 5, 2026

code agent跨仓库不到45%

  • Code agent出了单仓库就不灵,BeyondSWE四维度500实例评测,最强模型成功率不到45%,加搜索也帮不上忙
  • 合作训练、独立部署:HACRL让异构agent共享验证rollout互相补课。采样成本减半,推理时零额外开销
  • 小模型筛记忆比大模型翻全量历史更靠谱——MemSifter用RL训练代理检索器,奖励直接挂钩任务完成度,8个基准全部达标
  • 一个编码器通吃五类点云。Utonia在密度和几何特性完全不同的五个域做到统一表征,133个upvotes拿下今天HF最高热度

也值得关注

  • 把CFG重新理解为PID控制器 — 解释了固定guidance scale为何有局限,提出自适应调节方案。
  • 统一多模态模型的生成能力到底有没有帮助理解? — 30个子任务的系统性测试给出分场景答案。
  • 无需配对数据的视频编辑 — 用稀疏控制点实现局部编辑的时间和背景一致性。
  • Deep think越想越多反而放大错误 — PRM作为实时正确性信号可缓解population enhancement瓶颈。
  • 原生多模态模型的设计空间实验 — Transfusion框架下从零训练,哪些因素最关键。
  • 世界模型不需要decoder — 在表征空间直接预测下一步embedding,MBRL效果更好。
  • LM agent在长上下文中会被上下文压力带偏 — 偏离原始目标,最新模型也不例外。
  • 测试时自适应:LLM给自己出题再自我微调 — 针对当前问题生成合成训练数据的meta-learning方案。
  • 视频扩散模型水印在生成过程中直接嵌入 — 盲提取,不影响质量。
  • 更深的推理链不一定更对 — 数学推理模型61%准确率中混合了可靠和不可靠的推理路径。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.