流式传递让多agent更准，1/6高斯更清晰

        June 6, 2026

流式传递让多agent更准，1/6高斯更清晰

多agent边生成边传，反而更准：StreamMA让相邻agent流水线化，早期可靠信号提早被下游用上，八个数学/科学/代码基准平均提升7.3个百分点，HMMT 2026最高拉到22.4。

LLM裁判的奖励，可能正被悄悄套利：CHERRL主动注入已知偏见造可控环境，让rubric-based RL里的reward hacking能稳定复现、精确定位。

白墙和复杂物体不该花同样多高斯：ZipSplat用token把高斯放置与像素网格解耦，约1/6的高斯数量反而在两个基准上质量更好，且无需相机位姿。

规范当显式约束，agent框架跑进生产：MapAgent已接入百度地图、覆盖360多城的车道级建图，把建图规范和交通法规作为推理约束而非隐式监督。

也值得关注

用on-policy自蒸馏给稀疏奖励RL补上稠密监督 — 让模型条件于特权上下文监督自己的生成，全词表反向KL当辅助loss。Self-Distilled Policy Gradient
RLVR的token级优势重新加权 — 不再把一个序列级优势一刀切地广播给所有token，按token贡献重分配梯度。GRAIL: Gradient-Reweighted Advantages for RLVR
第一个系统评测长视频模型"记性"的benchmark — 测它记得住什么、记得准不准、抗不抗干扰，基于认知科学设计任务。M³Eval: Multi-Modal Memory Evaluation
超长程闭环的研究/工程任务基准 — 测前沿模型能不能持续提改、跑实验、看结果再迭代，而非一锤子答题。AutoLab: Long-Horizon Auto Research and Engineering
让视觉编码器带状态 — 跨多图比较时不再各编各的、把任务关键的细微变化提前抹平。Stateful Visual Encoders for VLMs
把长而交叉引用的规则集交给agentic harness做演绎推理 — 报税、移民判例这类需要逐条套用成文规则的场景。DAR: Deontic Reasoning with Agentic Harnesses
稀疏体素引导的自回归mesh生成 — 治token序列过长、难以scale的老问题。MeshWeaver: Sparse-Voxel-Guided Surface Weaving
LLM看起来谨慎，但机制未必和人对齐 — 用圣彼得堡悖论测，发现结果像≠决策机制和人类风险偏好一致。Probing LLM Risk Decisions via the St. Petersburg Game
agent策展的AIGC篡改定位benchmark — 比现有数据集更贴近真实的局部图像编辑。Impostor: Realistic AIGC Manipulation Localization
代数保持的深度Koopman学习 — 把非线性动力学更可靠地线性化。Deep Embedded Multiplicative DMD

阅读完整版 →

                                Don't miss what's next. Subscribe to AI论文简报:

            Email address (required)