AI论文简报
Archives
Search...
Log in
Subscribe
流式传递让多agent更准,1/6高斯更清晰
June 6, 2026
多agent边生成边传,反而更准:StreamMA让相邻agent流水线化,早期可靠信号提早被下游用上,八个数学/科学/代码基准平均提升7.3个百分点,HMMT 2026最高拉到22.4。 LLM裁判的奖励,可能正被悄悄套利:CHERRL主动注入已知偏见造可控环境,让rubric-based RL里的reward...
NVIDIA五模态压进一套权重
June 5, 2026
NVIDIA把语言、图像、视频、音频、动作塞进一套权重:Cosmos 3用一套mixture-of-transformers赌"单模型通吃所有模态",第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。...
20B搜索器外置状态打平前沿
June 4, 2026
给搜索agent删过期观察省上下文,收益是倒U形而非单调:从4B到284B、三种检索器扫一遍,强检索器配中等模型最划算,模型本身够强时反而把有用证据也删掉、准确率掉点。 把"记账"从策略外置给环境,20B搜索器平均recall 0.730:比次强开源搜索子agent高11.4分,还在held-...
4B agent几千条轨迹追平闭源CUA
June 3, 2026
PEFT不只是省钱微调,而是每个用户的持久状态:一篇framing式工作把小适配器重新定位成挂在万亿参数共享基座上的本地状态,沿三条scaling轴论证"百万个个人模型"的部署形态。 RAG从文本越界到视频生成:LongLive-...
主动找视角,最强模型仅12%
June 2, 2026
空间智能从被动理解翻成主动感知:TVR让agent对着一张目标照片自己转头迈步去复现视角,最强闭源模型成功率仅12%,但视觉-动作SFT能把一个9B开源模型从个位数拉到50%以上。...
MoE安全集中在少数专家、独占批提速42%
June 2, 2026
实验室VLM分数和机器人部署可靠性之间存在系统性落差:RoboStressBench按物理渲染拆出材质/光照/视角/几何四类压力,发现总体准确率会掩盖模型在具体环节的失灵。 MoE省下的算力可能是从安全护栏里抠出来的——安全能力高度集中在少数专家身上,路由一旦绕开它们,护栏就形同虚设。...
0.5概率即逐字背诵,倒放视频测因果
May 31, 2026
把LoRA反过来当量尺,量出模型参数化记忆的真实容量:记忆容量服从可提前估算的幂律,token预测概率0.5是逐字背诵的临界线,rank该开多大、何时切全量微调不再靠手感。...
BES双向搜索·多agent世界模型
May 31, 2026
BES把推理搜索从单向扩展拆出来:前向加进化算子跳出模型prior的"熵壳",后向从答案端递归分解任务给前向喂密集反馈,理论上指数级降搜索样本需求...
Agent开始学会自己变强,也学会少用工具
May 30, 2026
国产MoE开始把「自我进化」写进路线图:MiniMax-M2系列230B参数只激活9.8B,端到端为agent场景设计,最新checkpoint已能自己debug训练、改自己的脚手架 并行推理最大的浪费,是每条分支各想各的:CPT让多条思考分支实时共享中间发现,免训练,在数学竞赛题上把「准确率-...
agent轨迹让30B打平235B
May 25, 2026
30B agent靠trajectory追平7倍参数模型:ACC把agent解题留下的tool use trajectory重构成长上下文QA对,Qwen3-30B训完MRCR从50.2拉到68.3,跟参数量约7倍的Qwen3-235B-A22B打平 video world...
DeltaNet拆双门,Maestro压GPT-5
May 23, 2026
linear attention的瓶颈不是速度而是state编辑粒度——Gated DeltaNet-2把scalar gate拆成channel-wise的擦除与写入双门,在Mamba-2、KDA、Mamba-3之中拿到最强综合表现,长上下文检索任务上提升最显著。...
Optimizer让容量缩放差2.3倍
May 22, 2026
三类物理3D资产首次合进同一条管线——PhysX-Omni把刚体、柔体、铰接体统一到一个框架,输出资产自带物理属性可直接挂物理引擎,sim-to-real团队的多pipeline维护成本有望降下来。 图像生成正在从模型问题变成agent问题,GenEvolve把每次生成建模成轨迹,用visual...
$15跑出一篇论文,医疗agent仅28%
May 22, 2026
Auto-research成本曲线过线:$15跑出一篇完整论文,long-horizon agent能接管文献综述+实验+起草,但前沿LLM仍捏造结果、漏检错误,end-to-end全自动距主流会议门槛还有一段距离。...
8%的token决定reasoning差距
May 19, 2026
RLVR里的"不可学习"现象:一批困难样本即便在rollout里出过正确答案,整个训练也永远学不会,奖励曲线照涨——涨的其实是更易学子集的部分。 reasoning优势是稀疏的:base和reasoning model的差距高度集中在约8%的token上,富集在响应早期的planning决策位置。...
2.6B开源世界模型撑1分钟720p
May 17, 2026
real-time AR 视频的瓶颈正在位移:Causal Forcing++ 把 frame-wise 蒸馏压到 1-2 步,RAVEN 直接对准 long rollout 的 history distribution mismatch 用 consistency-model GRPO 训进去 SANA-WM...
奥赛金牌打包成两步配方
May 16, 2026
奥赛金牌从单点能力打包成两步配方:reverse-perplexity curriculum SFT 加两阶段 RL,30B-A3B backbone 拿下 IMO/IPhO 金牌;能否跨 backbone 复现是判断价值的关键。 多轮 agent 的奖励信号粒度太粗——SDAR 把 self-...
可读规则不该学进LLM权重
May 15, 2026
可读 dynamics 不该学进权重:Enterprise World Models 用 CascadeBench 证明,跨 tenant 漂移的 business rule 学得越好越脆,58 upvotes 在重画 RAG/工具调用与模型内部知识的边界。 AlphaGRPO 让 UMM 省掉 cold-...
δ-mem用8×8矩阵换长上下文
May 14, 2026
δ-mem外挂8×8状态矩阵:frozen主干不变、delta-rule在线更新,记忆密集任务上较基线提升10–15%,把长上下文从"扩窗口"重新表述为"设计状态机"。 CausalCine把shot boundary当一等公民,原生多镜头训练加按相关性检索KV的CAMR,效果接近双向模型同时保留流式交互。...
Flow-OPD把GenEval从63拉到92
May 13, 2026
图像生成对齐和 LLM 后训练正在共享同一套工具栈:Flow-OPD 把 On-Policy Distillation 搬到流匹配,SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94,比直接跑 GRPO 高约 10 分。...
几何冲突让持续微调可预判
May 12, 2026
几何冲突判据预判持续微调遗忘:把任务的参数更新协方差几何当作可测信号,GCWM在Qwen3 0.6B-14B、domain和capability两种continual场景下都稳定优于data-free baseline。 full-cache不再是KV...
Older archives