AI论文简报

Archives
Log in
May 25, 2026

agent轨迹让30B打平235B

  • 30B agent靠trajectory追平7倍参数模型:ACC把agent解题留下的tool use trajectory重构成长上下文QA对,Qwen3-30B训完MRCR从50.2拉到68.3,跟参数量约7倍的Qwen3-235B-A22B打平
  • video world model把长期记忆从attention负担里搬出来:WorldKV用retrieval加compression解耦"回头看一眼"的一致性需求,吞吐翻倍且无需fine-tune
  • DiT高分辨率推理转向content-aware scaling:SEGA按spectral energy差异化处理RoPE不同频率成分,避开均匀缩放在结构与细节之间的二选一
  • 8万条terminal录屏反向工程出1530个agent评测任务:TerminalWorld和Terminal-Bench这类专家curate集Pearson仅0.20,过去刷专家集得到的分数可能对不上真实开发者场景

也值得关注

  • flow matching应该跑在DINOv2 representation space而不是pixel或SD-VAE — 表征空间的几何属性对flow matching学习更友好。
  • agentic reasoning不该让CoT隐式承担planning — 论文把决策拆成3个system让agent显式决定何时plan、何时act。
  • SAM 2直接迁到visual object tracking效果不够 — 论文加了motion、geometry、semantic三路适配应对干扰物、遮挡、非线性运动。
  • 一句话生成短剧的多agent流水线 — 针对叙事节奏、空间一致性、量产质控三个具体痛点而不是一锅炖。
  • 用Taylor series识别视频中的"时间惊异点"做frame selection — training-free,思路和predictive coding直觉对齐。
  • model search本质是comparative的 — 基于model card的结构化table做发现比纯文本相似度更能拉开候选alternatives。
  • fashion image retrieval的task-adaptive统一框架 — 覆盖多种query format和搜索意图,电商场景可直接对照。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.