Archive (Page 4) • AI论文简报 • Buttondown

蒸馏砍掉模型的犹豫，OOD暴跌40%

March 27, 2026

自蒸馏砍掉的是模型"犹豫"的能力，不是冗余步骤——epistemic verbalization被压制后，模型在OOD场景性能暴跌40%，评估指标却看不出来。 Coding agent代码冗余度比人类项目高2.2倍。...

投机执行快3倍，不丢token反更快

March 26, 2026

Agent投机执行实现最高3.35倍加速，SpecEyes将CPU投机执行思想引入agent循环，用小模型预测轨迹并行化视觉工具调用，准确率不降反升 VLM加速的答案不是压缩视觉token而是按需查询。VISOR用稀疏交叉注意力替代密集自注意力，保留全部视觉信息同时大幅降低计算量（CVPR） World...

扩散OCR解码快3.2倍，单流架构2秒出片

March 25, 2026

扩散解码替代自回归，文档OCR从串行跳到并行。 MinerU-Diffusion把文档解析重定义为逆渲染问题，用分块扩散解码器并行生成结构化源码，解码速度提升3.2倍，开源可用 RLVR训练信号的方向比幅度更重要： token级Δlog...

PDE替掉attention误差低2倍，局部RL省3/4算力

March 24, 2026

形式化证明拆成三个独立能力分别RL，比端到端训练更高效——LongCat-Flash-Prover把自动形式化、框架搭建、逐步证明分开强化，配合HisPO算法解决MoE长链训练不稳定，方法论不绑定模型规模 SFT轨迹上叠加局部RL，四分之一算力逼近端到端效果。...

Seed1.8把Agent做进基座，语言训练让视觉退化

March 24, 2026

Seed1.8把搜索、代码执行、GUI交互统一到基座层，字节跳动发布Agent原生基座模型，部署侧针对延迟和成本做了优化，但缺少与通用模型+框架方案的直接对比。多模态模型的语言训练在系统性侵蚀视觉表征——跨架构、跨规模的诊断发现，单一文本生成目标迫使模型牺牲视觉保真度。PRe方法通过中间层预测约束缓解退化。...

12B超GPT-4，蒸馏后学生反超教师

March 23, 2026

生成式推荐的"泛化优势"在token级别退化为记忆重组，按实例融合两种范式比选边站更务实。安全合规评估因标准明确、专家稀缺成为Agent理想场景：领域微调能识别通用模型遗漏的行业风险，但上下文窗口是实际瓶颈。...

3B参数奥赛三金，768维离散token生成可行

March 21, 2026

Cascade RL加多领域蒸馏让3B参数拿下三项奥赛金牌，NVIDIA开源了完整训练配方，小模型推理天花板被重新定义视频扩散模型内部已学到完整3D空间先验：无需3D标注或几何模块，直接提取中间层特征就能做深度和场景流预测...

3D仅需0.1%token，视频微调反伤空间理解

March 20, 2026

经验库与策略的错位退化是agent RL的隐性瓶颈。Complementary RL让经验提取器根据策略表现动态调整，实现协同演进而非静态积累。 Video-SFT的时序增益以空间退化为代价——跨架构、跨尺度的系统性实验确认，这不是个别模型的bug，是视频微调的结构性trade-off。...

32B工业代码模型首发，战争验证推理真伪

March 19, 2026

通用代码模型在工业场景断崖式下跌，根源是数据和范式脱节。 InCoder-32B首次以32B开源基座统一芯片设计、GPU优化等五大工业代码方向，283个HF upvotes侧面验证行业需求 Agent产品最容易忽略的瓶颈不是能力上限，而是需求漂移。...

开源搜索Agent逆袭，Agent Skills神话破灭

March 19, 2026

1.17万条合成数据训出的开源搜索Agent击败闭源对手，OpenSeeker在BrowseComp上几乎翻倍第二名，数据和模型全开源，Deep Research不再是大厂专利。...

70万对论文蒸馏品味，零空间暴露盲区

March 18, 2026

社区引用信号可以训练出"品味"，RLCF用70万对论文配对做偏好建模，训练出的Judge判断力超过GPT-5.2，范式可迁移到任何需要品味决策的场景。分类器的结构性盲区藏在零空间里——SING将线性映射几何决定的不变量转化为自然语言描述，部署前审计模型"对什么无感"比刷准确率更管用。...

专家推理结构做CoT，新类发现+13%

March 17, 2026

用领域专家的真实推理流程设计CoT监督，在医疗VQA中同时提升准确率和可追溯性，思路可迁移到任何需要结构化专业判断的垂直场景。CVPR接收最少几个特征就能复现模型的拒绝决策：将溯因解释最小化问题转化为0-1整数规划，实际求解效率优于不保证最优的方法。方法限于线性模型，但问题框架对高风险人机协作有启发...

1/4预算Agent反超4倍暴力采样

March 16, 2026

SWE Agent训练的瓶颈是可执行环境而非算法，OpenSWE开源45,320个Docker化训练环境，覆盖12,800+仓库，构建成本147万美元揭示了学术组难以独立填补这一基础设施空白。...

文档Agent导航≈碰运气，预填充加速1.82×

March 14, 2026

文档Agent的推理能力被高估了，MADQA用经典测试理论设计的benchmark表明，最好的多模态Agent虽能追平人类准确率，但导航策略更接近随机搜索而非策略推理，与Oracle仍有近20%的差距理解3D空间的更好方式不是扩上下文窗口：Spatial-TTT让模型在推理时通过test-time...

编码答案而非问题，embedding涨9%

March 13, 2026

编码LLM的潜在回复而非用户输入做embedding，纯自监督训练在MTEB上比最好的无监督方法提升9.3%，LLM的安全对齐也被迁移到embedding空间。 STEM视觉推理的真正瓶颈在感知而非推理。 CodePercept消融实验显示扩展感知组件收益持续更高，用可执行代码做感知脚手架效果显著。...

「想一想」能翻模型的记忆库

March 12, 2026

CoT推理不只是解题，更是参数记忆的搜索机制，Google发现即使简单事实问题，开启推理也显著提升知识召回，推理token充当了隐式的记忆搜索空间 Agent交互信号统一为在线学习源：OpenClaw-RL把对话、终端、GUI反馈纳入同一套RL循环，让Agent边服务边学习，代码已开源...

先写代码再画图，排版提升68%

March 11, 2026

所有intrinsic RLVR本质是锐化初始分布，模型先验质量决定训练天花板。Model Collapse Step可在跑RL前预判可行性，避免无效投入代码比自然语言更适合做空间推理链：结构化布局基准提升68.83%，密集排版和多元素场景改善最为显著模仿学习的结构性缺陷是缺少判断力训练。...

4步超100步基线，跳层省18%算力

March 10, 2026

不可微奖励首次接入少步扩散模型RL训练，4步生成全面超越100步基线，人类偏好、安全检查、物体计数等实际业务中最需要的信号不再被挡在门外。代码模型RL后训练进入工程优化期：同一天两个团队分别从梯度稳定性和数据难度分布两端攻克具体瓶颈，方法论验证阶段已过。...

12k样本赢金融SOTA，CUDA优化快35%

March 10, 2026

垂直领域post-training数据比模型大小更重要：金融场景系统消融实验表明，蒸馏质量控制+difficulty-aware采样让8B模型仅用12k RL样本就超越同规模SOTA 离线RL让agent规划从碰运气变成系统工程，微软用合成轨迹+质量打分训练工具调用规划，思路可迁移到任何多步agent任务...

去掉CLIP的VLM更强，prefill加速28倍

March 9, 2026

对比预训练与VLM目标天然不匹配，CLIP优化类别区分而VLM需要细粒度理解。腾讯Penguin-VL用纯文本LLM初始化视觉编码器，在2B和8B规模上反超CLIP/SigLIP方案。稀疏注意力的瓶颈从"如何稀疏"转向"如何发现" —...