Archive • AI论文简报 • Buttondown

流式传递让多agent更准，1/6高斯更清晰

June 6, 2026

多agent边生成边传，反而更准：StreamMA让相邻agent流水线化，早期可靠信号提早被下游用上，八个数学/科学/代码基准平均提升7.3个百分点，HMMT 2026最高拉到22.4。 LLM裁判的奖励，可能正被悄悄套利：CHERRL主动注入已知偏见造可控环境，让rubric-based RL里的reward...

NVIDIA五模态压进一套权重

June 5, 2026

NVIDIA把语言、图像、视频、音频、动作塞进一套权重：Cosmos 3用一套mixture-of-transformers赌"单模型通吃所有模态"，第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。...

20B搜索器外置状态打平前沿

June 4, 2026

给搜索agent删过期观察省上下文，收益是倒U形而非单调：从4B到284B、三种检索器扫一遍，强检索器配中等模型最划算，模型本身够强时反而把有用证据也删掉、准确率掉点。把"记账"从策略外置给环境，20B搜索器平均recall 0.730：比次强开源搜索子agent高11.4分，还在held-...

4B agent几千条轨迹追平闭源CUA

June 3, 2026

PEFT不只是省钱微调，而是每个用户的持久状态：一篇framing式工作把小适配器重新定位成挂在万亿参数共享基座上的本地状态，沿三条scaling轴论证"百万个个人模型"的部署形态。 RAG从文本越界到视频生成：LongLive-...

主动找视角,最强模型仅12%

June 2, 2026

空间智能从被动理解翻成主动感知：TVR让agent对着一张目标照片自己转头迈步去复现视角，最强闭源模型成功率仅12%，但视觉-动作SFT能把一个9B开源模型从个位数拉到50%以上。...

MoE安全集中在少数专家、独占批提速42%

June 2, 2026

实验室VLM分数和机器人部署可靠性之间存在系统性落差：RoboStressBench按物理渲染拆出材质/光照/视角/几何四类压力，发现总体准确率会掩盖模型在具体环节的失灵。 MoE省下的算力可能是从安全护栏里抠出来的——安全能力高度集中在少数专家身上，路由一旦绕开它们，护栏就形同虚设。...

0.5概率即逐字背诵，倒放视频测因果

May 31, 2026

把LoRA反过来当量尺，量出模型参数化记忆的真实容量：记忆容量服从可提前估算的幂律，token预测概率0.5是逐字背诵的临界线，rank该开多大、何时切全量微调不再靠手感。...

BES双向搜索·多agent世界模型

May 31, 2026

BES把推理搜索从单向扩展拆出来:前向加进化算子跳出模型prior的"熵壳",后向从答案端递归分解任务给前向喂密集反馈,理论上指数级降搜索样本需求...

Agent开始学会自己变强，也学会少用工具

May 30, 2026

国产MoE开始把「自我进化」写进路线图：MiniMax-M2系列230B参数只激活9.8B，端到端为agent场景设计，最新checkpoint已能自己debug训练、改自己的脚手架并行推理最大的浪费，是每条分支各想各的：CPT让多条思考分支实时共享中间发现，免训练，在数学竞赛题上把「准确率-...

agent轨迹让30B打平235B

May 25, 2026

30B agent靠trajectory追平7倍参数模型：ACC把agent解题留下的tool use trajectory重构成长上下文QA对，Qwen3-30B训完MRCR从50.2拉到68.3，跟参数量约7倍的Qwen3-235B-A22B打平 video world...

DeltaNet拆双门,Maestro压GPT-5

May 23, 2026

linear attention的瓶颈不是速度而是state编辑粒度——Gated DeltaNet-2把scalar gate拆成channel-wise的擦除与写入双门,在Mamba-2、KDA、Mamba-3之中拿到最强综合表现,长上下文检索任务上提升最显著。...

Optimizer让容量缩放差2.3倍

May 22, 2026

三类物理3D资产首次合进同一条管线——PhysX-Omni把刚体、柔体、铰接体统一到一个框架,输出资产自带物理属性可直接挂物理引擎,sim-to-real团队的多pipeline维护成本有望降下来。图像生成正在从模型问题变成agent问题,GenEvolve把每次生成建模成轨迹,用visual...

$15跑出一篇论文,医疗agent仅28%

May 22, 2026

Auto-research成本曲线过线:$15跑出一篇完整论文,long-horizon agent能接管文献综述+实验+起草,但前沿LLM仍捏造结果、漏检错误,end-to-end全自动距主流会议门槛还有一段距离。...

8%的token决定reasoning差距

May 19, 2026

RLVR里的"不可学习"现象：一批困难样本即便在rollout里出过正确答案，整个训练也永远学不会，奖励曲线照涨——涨的其实是更易学子集的部分。 reasoning优势是稀疏的：base和reasoning model的差距高度集中在约8%的token上，富集在响应早期的planning决策位置。...

2.6B开源世界模型撑1分钟720p

May 17, 2026

real-time AR 视频的瓶颈正在位移：Causal Forcing++ 把 frame-wise 蒸馏压到 1-2 步，RAVEN 直接对准 long rollout 的 history distribution mismatch 用 consistency-model GRPO 训进去 SANA-WM...

奥赛金牌打包成两步配方

May 16, 2026

奥赛金牌从单点能力打包成两步配方：reverse-perplexity curriculum SFT 加两阶段 RL，30B-A3B backbone 拿下 IMO/IPhO 金牌；能否跨 backbone 复现是判断价值的关键。多轮 agent 的奖励信号粒度太粗——SDAR 把 self-...

可读规则不该学进LLM权重

May 15, 2026

可读 dynamics 不该学进权重：Enterprise World Models 用 CascadeBench 证明，跨 tenant 漂移的 business rule 学得越好越脆，58 upvotes 在重画 RAG/工具调用与模型内部知识的边界。 AlphaGRPO 让 UMM 省掉 cold-...

δ-mem用8×8矩阵换长上下文

May 14, 2026

δ-mem外挂8×8状态矩阵：frozen主干不变、delta-rule在线更新，记忆密集任务上较基线提升10–15%，把长上下文从"扩窗口"重新表述为"设计状态机"。 CausalCine把shot boundary当一等公民，原生多镜头训练加按相关性检索KV的CAMR，效果接近双向模型同时保留流式交互。...

Flow-OPD把GenEval从63拉到92

May 13, 2026

图像生成对齐和 LLM 后训练正在共享同一套工具栈：Flow-OPD 把 On-Policy Distillation 搬到流匹配，SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94，比直接跑 GRPO 高约 10 分。...

几何冲突让持续微调可预判

May 12, 2026

几何冲突判据预判持续微调遗忘：把任务的参数更新协方差几何当作可测信号，GCWM在Qwen3 0.6B-14B、domain和capability两种continual场景下都稳定优于data-free baseline。 full-cache不再是KV...