流式传递让多agent更准,1/6高斯更清晰
- 多agent边生成边传,反而更准:StreamMA让相邻agent流水线化,早期可靠信号提早被下游用上,八个数学/科学/代码基准平均提升7.3个百分点,HMMT 2026最高拉到22.4。
- LLM裁判的奖励,可能正被悄悄套利:CHERRL主动注入已知偏见造可控环境,让rubric-based RL里的reward hacking能稳定复现、精确定位。
- 白墙和复杂物体不该花同样多高斯:ZipSplat用token把高斯放置与像素网格解耦,约1/6的高斯数量反而在两个基准上质量更好,且无需相机位姿。
- 规范当显式约束,agent框架跑进生产:MapAgent已接入百度地图、覆盖360多城的车道级建图,把建图规范和交通法规作为推理约束而非隐式监督。
也值得关注
- 用on-policy自蒸馏给稀疏奖励RL补上稠密监督 — 让模型条件于特权上下文监督自己的生成,全词表反向KL当辅助loss。Self-Distilled Policy Gradient
- RLVR的token级优势重新加权 — 不再把一个序列级优势一刀切地广播给所有token,按token贡献重分配梯度。GRAIL: Gradient-Reweighted Advantages for RLVR
- 第一个系统评测长视频模型"记性"的benchmark — 测它记得住什么、记得准不准、抗不抗干扰,基于认知科学设计任务。M³Eval: Multi-Modal Memory Evaluation
- 超长程闭环的研究/工程任务基准 — 测前沿模型能不能持续提改、跑实验、看结果再迭代,而非一锤子答题。AutoLab: Long-Horizon Auto Research and Engineering
- 让视觉编码器带状态 — 跨多图比较时不再各编各的、把任务关键的细微变化提前抹平。Stateful Visual Encoders for VLMs
- 把长而交叉引用的规则集交给agentic harness做演绎推理 — 报税、移民判例这类需要逐条套用成文规则的场景。DAR: Deontic Reasoning with Agentic Harnesses
- 稀疏体素引导的自回归mesh生成 — 治token序列过长、难以scale的老问题。MeshWeaver: Sparse-Voxel-Guided Surface Weaving
- LLM看起来谨慎,但机制未必和人对齐 — 用圣彼得堡悖论测,发现结果像≠决策机制和人类风险偏好一致。Probing LLM Risk Decisions via the St. Petersburg Game
- agent策展的AIGC篡改定位benchmark — 比现有数据集更贴近真实的局部图像编辑。Impostor: Realistic AIGC Manipulation Localization
- 代数保持的深度Koopman学习 — 把非线性动力学更可靠地线性化。Deep Embedded Multiplicative DMD
Don't miss what's next. Subscribe to AI论文简报: