AI论文简报

Archives
Log in
June 6, 2026

流式传递让多agent更准,1/6高斯更清晰

  • 多agent边生成边传,反而更准:StreamMA让相邻agent流水线化,早期可靠信号提早被下游用上,八个数学/科学/代码基准平均提升7.3个百分点,HMMT 2026最高拉到22.4。
  • LLM裁判的奖励,可能正被悄悄套利:CHERRL主动注入已知偏见造可控环境,让rubric-based RL里的reward hacking能稳定复现、精确定位。
  • 白墙和复杂物体不该花同样多高斯:ZipSplat用token把高斯放置与像素网格解耦,约1/6的高斯数量反而在两个基准上质量更好,且无需相机位姿。
  • 规范当显式约束,agent框架跑进生产:MapAgent已接入百度地图、覆盖360多城的车道级建图,把建图规范和交通法规作为推理约束而非隐式监督。

也值得关注

  • 用on-policy自蒸馏给稀疏奖励RL补上稠密监督 — 让模型条件于特权上下文监督自己的生成,全词表反向KL当辅助loss。Self-Distilled Policy Gradient
  • RLVR的token级优势重新加权 — 不再把一个序列级优势一刀切地广播给所有token,按token贡献重分配梯度。GRAIL: Gradient-Reweighted Advantages for RLVR
  • 第一个系统评测长视频模型"记性"的benchmark — 测它记得住什么、记得准不准、抗不抗干扰,基于认知科学设计任务。M³Eval: Multi-Modal Memory Evaluation
  • 超长程闭环的研究/工程任务基准 — 测前沿模型能不能持续提改、跑实验、看结果再迭代,而非一锤子答题。AutoLab: Long-Horizon Auto Research and Engineering
  • 让视觉编码器带状态 — 跨多图比较时不再各编各的、把任务关键的细微变化提前抹平。Stateful Visual Encoders for VLMs
  • 把长而交叉引用的规则集交给agentic harness做演绎推理 — 报税、移民判例这类需要逐条套用成文规则的场景。DAR: Deontic Reasoning with Agentic Harnesses
  • 稀疏体素引导的自回归mesh生成 — 治token序列过长、难以scale的老问题。MeshWeaver: Sparse-Voxel-Guided Surface Weaving
  • LLM看起来谨慎,但机制未必和人对齐 — 用圣彼得堡悖论测,发现结果像≠决策机制和人类风险偏好一致。Probing LLM Risk Decisions via the St. Petersburg Game
  • agent策展的AIGC篡改定位benchmark — 比现有数据集更贴近真实的局部图像编辑。Impostor: Realistic AIGC Manipulation Localization
  • 代数保持的深度Koopman学习 — 把非线性动力学更可靠地线性化。Deep Embedded Multiplicative DMD

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.