agent轨迹让30B打平235B
- 30B agent靠trajectory追平7倍参数模型:ACC把agent解题留下的tool use trajectory重构成长上下文QA对,Qwen3-30B训完MRCR从50.2拉到68.3,跟参数量约7倍的Qwen3-235B-A22B打平
- video world model把长期记忆从attention负担里搬出来:WorldKV用retrieval加compression解耦"回头看一眼"的一致性需求,吞吐翻倍且无需fine-tune
- DiT高分辨率推理转向content-aware scaling:SEGA按spectral energy差异化处理RoPE不同频率成分,避开均匀缩放在结构与细节之间的二选一
- 8万条terminal录屏反向工程出1530个agent评测任务:TerminalWorld和Terminal-Bench这类专家curate集Pearson仅0.20,过去刷专家集得到的分数可能对不上真实开发者场景
也值得关注
- flow matching应该跑在DINOv2 representation space而不是pixel或SD-VAE — 表征空间的几何属性对flow matching学习更友好。
- agentic reasoning不该让CoT隐式承担planning — 论文把决策拆成3个system让agent显式决定何时plan、何时act。
- SAM 2直接迁到visual object tracking效果不够 — 论文加了motion、geometry、semantic三路适配应对干扰物、遮挡、非线性运动。
- 一句话生成短剧的多agent流水线 — 针对叙事节奏、空间一致性、量产质控三个具体痛点而不是一锅炖。
- 用Taylor series识别视频中的"时间惊异点"做frame selection — training-free,思路和predictive coding直觉对齐。
- model search本质是comparative的 — 基于model card的结构化table做发现比纯文本相似度更能拉开候选alternatives。
- fashion image retrieval的task-adaptive统一框架 — 覆盖多种query format和搜索意图,电商场景可直接对照。
Don't miss what's next. Subscribe to AI论文简报: