Archive (Page 5) • AI论文简报 • Buttondown

LLM做视觉编码器，2B模型反超大模型

March 9, 2026

用LLM替代CLIP初始化视觉编码器，2B小模型多项反超大模型，对比学习的粗粒度目标与VLM细粒度需求存在根本错配，换起点比加参数更有效。跳过搜索直接用block统计定位稀疏注意力：256K序列27倍加速，4K短序列仍有1.7倍提升。已开源代码。...

'请简洁'砍半token，准确率反涨16分

March 7, 2026

一句"请简洁"就能自蒸馏，Qwen3在MATH-500上token砍半、准确率反涨16分，冗余推理不只浪费算力还主动制造错误策略自己知道哪里会失败——RoboPocket把模型的不确定性AR投射到手机上，让数据采集者针对弱点补演示，效率翻倍 RAG只看语义不看数据分布，检索到的函数跑不通。...

code agent跨仓库不到45%

March 5, 2026

Code agent出了单仓库就不灵，BeyondSWE四维度500实例评测，最强模型成功率不到45%，加搜索也帮不上忙合作训练、独立部署：HACRL让异构agent共享验证rollout互相补课。采样成本减半，推理时零额外开销...

Lottie动画直接生成，DPO自带防遗忘

March 4, 2026

AI生成动画首次直接输出可编辑工程文件，OmniLottie把Lottie的冗长JSON压缩成参数化token序列，让视觉语言模型直接生成带关键帧和缓动曲线的矢量动画，省去格式转换环节。CVPR接收，200万动画数据集已开源...

9K样本逼近R1，RL提升大半归SFT

March 3, 2026

9K精选样本训出逼近DeepSeek-R1的4B推理模型，CHIMERA证明推理训练的真正瓶颈在数据的领域覆盖和筛选质量，不在规模 Attention steering第一次能进生产部署：SEKA在频域编辑key embedding绕开FlashAttention兼容性限制，训练免、延迟可忽略。ICLR接收...

谱条件统一μP缩放，数据筛选也泄露隐私

March 3, 2026

谱条件统一了μP的宽度-深度联合缩放，不再需要逐架构逐优化器单独推导超参数迁移规则，附带代码实现。数据筛选过程本身就泄露成员信息：Anthropic研究表明，即使模型只在公开数据上训练，攻击者仍可推断原始数据集的组成。 VLM让灵巧手听懂自然语言指令。UniHM用统一tokenizer跨手型泛化，只需人-...

砍掉90%视觉token性能不掉

March 2, 2026

空间关系可以从"碰运气"变成可优化的目标，SpatialScore用reward model给生成模型装上空间理解信号，专用小模型空间评估超过GPT-4V。CVPR接收，数据集开源 Masked图像生成4倍加速且质量不掉：用动力学建模替代静态缓存，把离散采样丢掉的语义信息学回来...

Latent推理靠的不是推理

February 28, 2026

Latent推理的性能提升来自副作用而非推理本身，因果中介分析显示latent token与输入输出之间存在因果断裂，用文本做显式想象的简单方案反而更优 Deep research agent砍掉七成推理步骤反而更准：并行证据采集替代串行推理链，搜索广度比推理深度更值得投入...

三模态从零训练，Agent RL稳定性破局

February 27, 2026

Apple从零预训三模态masked diffusion模型，系统性测试了scaling law、模态混合和噪声调度，对做多模态扩散的团队直接可参考。masked diffusion正在成为自回归之外的可选路线 Agentic RL训练collapse有了系统性诊断框架：ARLArena把policy...

TTT就是线性注意力，Terminal Agent数据配方开源

February 26, 2026

TTT架构被证明等价于线性注意力算子，NVIDIA团队的形式化证明将两个独立研究社区的技术积累打通，高效序列建模的设计空间大幅缩减终端Agent的训练数据工程首次系统公开：从种子任务生成到技能组合、训练策略对比，全套数据集和模型权重开源。8B模型准确率从2.5%跳到13.0%...

Agent红队11种失败模式，step级路由降本700倍

February 26, 2026

20人红队测试揭示Agent部署盲区，真实环境中记忆污染、工具链级联、多Agent串谋等11类失败模式远超沙箱评测覆盖范围。最危险的是Agent自报"任务完成"但底层状态已出错视频推理终于有了百万级benchmark：VBVR用规则化评分替代模型打分，把视频模型评估从"画质"拉向"时空因果理解"，404个HF...

token概率直接当reward，零样本达0.95相关性

February 25, 2026

LLM内部构建kernel行为的"世界模型"来规划优化路径，MoE等复杂kernel上比进化搜索快14倍，把算子调优从随机试错变成有规划的探索 VLM的token概率直接提取reward信号：预训练模型的logits里编码了任务进展信息，130+真实机器人任务上zero-shot相关性达0.947...

74%的agent协调可能是白费的

February 24, 2026

企业工作流中74%的任务不需要agent间协调，单调性分析提供了形式化判据：子结果合并不会变差的任务可以完全并行，省掉全部编排开销。多个AI分析师对同一数据的结论频繁矛盾——分歧不是噪声而是结构性的，prompt措辞和模型选择已经预先给结论染了色。...

模型压缩的几何直觉：折叠比剪枝更优

February 23, 2026

模型压缩不一定要剪枝，ICLR 2026的理论和实验表明weight folding（低秩投影）在大多数压缩率下重建误差更小。视频生成模型开始真正响应人的肢体动作。手指级别的控制精度让XR场景变得可交互，不再只是看。 VR对话Agent终于能看着你说话了：SARAH实时生成空间感知的全身动作，300...

DiT动态patch快3倍，Mamba减法逼近softmax

February 22, 2026

Latent diffusion的两步训练可以统一为一步，encoder输出噪声与diffusion噪声level对齐后训练效率更高，ImageNet-512达到FID 1.4。 DiT去噪不需要全程最细粒度：DDiT按内容复杂度动态调整patch大小，即插即用加速3.5倍且质量无损。...

Agent从80分涨到90分，失败模式没变

February 20, 2026

Agent准确率从80涨到90，失败模式几乎没变。 14个模型实测显示，能力提升并未带来可靠性同步改善，从demo到production的决策应看失败条件而非平均分 VLM+仿真RL绕过示教数据瓶颈： HERO让人形机器人零样本操控从未见过的物体，末端跟踪误差降低3.2倍 Fast...

示例图对替代prompt，Agent筛信息暗藏偏心

February 20, 2026

智谱GLM-5开源，核心架构声称尚待验证，DSA同时宣称降成本、保长上下文、提推理能力——三个通常互相矛盾的目标，等社区复现比看官方benchmark更实在。 LLM Agent筛选信息时系统性偏向特定来源：CMU对12个模型的控制实验发现，来源偏好有时压过内容相关性，显式提示「保持中立」也无法消除。...

频谱衰减让W4A4量化回升7%精度

February 19, 2026

预训练越充分，量化反而越脆弱：Amazon发现激活异常点严重程度与预训练规模正相关，S2D通过频谱衰减在训练阶段修复根因，W4A4精度最高回升7% 精心挑选fine-tuning数据的大部分技巧没用，Microsoft Research系统拆解后发现只有梯度表示跨任务稳定有效，数据量充足时精选与随机几乎无差...

二进制token让图像生成快30倍，RL训练也在学会反思

February 18, 2026

二进制token取代codebook索引，BitDance用260M参数打平1.4B模型的图像生成质量，推理快8.7倍，1024分辨率快30倍以上 RL训练的反馈太稀疏模型学不动？ERL让模型先反思失败再强化成功，复杂环境提升最高达81%...

Web Agent在线RL突破70%，奖励模型换个方向思考就行

February 17, 2026

Web导航Agent在线学习终于跑通了，OpAgent在WebArena上达到71.6%成功率，比之前所有单体模型翻倍奖励模型不一定要"正着判"。FLIP反过来推断指令，小模型比LLM-as-Judge强79.6% RL不止能训生成模型，也能训embedding模型的推理链，Embed-...