Archive (Page 3) • AI论文简报 • Buttondown

腾讯开源3D世界生成、VLM偏科探针

April 17, 2026

腾讯HY-World 2.0把3D世界生成做进工程可用：四阶段pipeline（全景→轨迹→视角扩展→多视图合成），文字或单图直接出可导航3DGS场景，开源对标闭源Marble。...

大模型更抗谣言却更易被噪声带跑

April 16, 2026

Agent失败可以拆成两类可测的错误：死磕一条路（exploit过强）和漫无方向（explore过度）能用黑盒指标分开度量，不需要访问模型内部策略，frontier模型失败模式差异明显 scaling把"看context"拆成两种反向变化的子能力。 Google在两个模型家族上给出首个contextual...

VLM换规则就崩·DLM加速4倍

April 15, 2026

VLM看得懂棋面，却无法遵循替代规则——14个模型在同一终局画面上，标准规则准确率显著高于反转规则，研究者将此命名为"语义固化"，对需要模型遵循自定义规则的应用是个警示英文安全对齐在低资源语言下断崖式失效。 LASA在模型语义瓶颈层做语言无关对齐，将LLaMA-3.1的平均攻击成功率从24.7%降至2.8%...

PRM标注成本降两个数量级，dLLM幻觉错法不同

April 14, 2026

dLLM的幻觉模式跟自回归完全不同，首个受控对比实验识别出三种特有故障模式（过早终止、去噪不完全、上下文侵入），现有检测工具需要针对性重新设计对比互信息让过程奖励标注成本降两个数量级：直接从模型内部概率提取步骤级信号，不需要反复采样rollout。ACL接收...

SFT收敛≠全学会，注意力劫持破防94%

April 14, 2026

SFT的loss收敛后，模型仍会在训练集上系统性答错特定子集。跨三个模型家族复现了五类成因，aggregate指标不足以判断微调质量奖励模型不需要每次打分都做CoT推理。E-GRM用生成一致性估计不确定性，对简单样本跳过深度推理，降本的同时反而提升了准确率 Coding...

DMax让扩散LM并行效率提升近3倍

April 12, 2026

腾讯用一个VLM统一了机器人的感知和规划，释出2B端侧+32B推理双规格模型，模块化pipeline的复杂度优势可能不再成立扩散语言模型的并行解码效率提升近3倍：DMax用连续embedding插值替代二值跳变，两块H200跑到每秒1,338 token...

打乱音视频练推理，6B模型超GPT-4o

April 11, 2026

Agent技能应该从用户群体中自进化：SkillClaw把多用户交互轨迹变成skill进化信号，一个人的修正自动同步全员，给Agent系统装上组织记忆小模型压缩比大模型硬看更聪明，Tempo用6B模型根据问题动态筛选关键帧，8K token预算下超过GPT-4o和Gemini 1.5 Pro...

微调即加速1.7倍，token崩的不是channel

April 10, 2026

纯微调就能让LLM一步吐多个token， MARS不改架构不加参数，Qwen2.5-7B实测加速1.71倍，部署迁移成本几乎为零图像自编码器压缩崩了别急着加channel——TC-AE发现真正塌缩的是token利用率，从token空间入手反而更简单有效 World model的空间一致性和实时性终于不用二选一。...

Entropy在骗你，隐式推理止于7步

April 9, 2026

Entropy稳定不代表推理健康。 RAGEN-2发现agentic RL中的"模板坍缩"——模型用固定模板应对所有输入，entropy完全看不出来，互信息才是更可靠的训练监控指标 Meta试图让模型本身成为计算机——Neural...

单GPU训120B·视频评测四成靠猜

April 8, 2026

单卡全精度训120B参数，吞吐量比DeepSpeed快1.84倍。 MegaTrain把GPU降级为临时计算引擎，参数全存CPU内存，流水线双缓冲突破带宽瓶颈，单机路线的性价比值得小团队评估...

视频问答跑到2FPS，RLVR自带噪声过滤

April 8, 2026

VideoLLM实现2FPS流式视频问答，AURA用端到端架构统一持续感知和主动响应，集成ASR+TTS已跑通可交互原型。 Agent信息过时怎么办，ClawArena给出系统评测——64个场景覆盖动态更新下的信念维护，发现框架设计的影响接近模型能力差异的60%。...

Diffusion推理省54%算力不降质

April 7, 2026

Diffusion推理砍半算力质量反升，DiffSparse用可学习predictor逐层逐步决定token稀疏率，PixArt-α上省54%计算量，与蒸馏/量化的叠加效果待验证多角色视频的身份混淆根源在位置编码：PoCo从position...

32B硬件代码开源进第一梯队，Agent难题仅23%

April 6, 2026

硬件代码调试有了开源32B选项，InCoder从工程师实际犯错过程中蒸馏推理链，在LiveCodeBench和CAD-Coder上进入开源第一梯队，不过KernelBench 38%说明GPU优化类任务离实用仍远 CLIP的空间语义短板是训练目标决定的。CoME-...

Agent难题仅23%过关，CLIP三年路径依赖

April 6, 2026

错误驱动的思维链合成，填补工业代码推理数据空白——InCoder用模型与环境错误反馈的多轮交互生成推理轨迹，这套数据合成策略可迁移到任何缺乏公开专家数据的垂直领域。 CLIP单编码器用了三年，可能只是路径依赖。CoME-VL融合对比与自监督编码器，定位任务提升5.4%，消融实验揭示了融合的scaling边界。...

400万游戏帧练渲染，技能内化胜过检索

April 4, 2026

离散token是LLM的架构天花板而非优化目标，综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。 Agent技能用RL内化进参数比检索注入更强：SKILL0的渐进撤除课程在ALFWorld上提升9.7%，推理时每步上下文不到500 token。...

单神经元记住实体，套路复用提效19%

April 3, 2026

单个MLP神经元能触发实体级"失忆"，Google在200个实体上验证了因果关系，知识编辑可能从大面积手术变成精准定位从推理轨迹提取可复用解题套路：3200万条程序性知识让模型不再每题从零推理，最高提升19.2%...

极简Agent打平MCP，代码推理边写边想

April 3, 2026

终端+文件系统的极简Agent打平全副武装MCP方案，72个HF upvotes说明从业者对Agent过度工程的集体焦虑不是空穴来风——但评估任务是否覆盖真实企业场景的全部复杂度，仍需追问代码生成按需插入推理token，四个基准全部SOTA：Think-...

配比成本降35倍，显眼词劫持推理38倍

April 1, 2026

数据配比从训前超参变为训后优化，OptiMer为每个数据集单独训模型后在参数空间搜索最优合并权重，搜索成本降低15-35倍。表面线索对LLM推理方向的劫持力是目标约束的8-38倍：跨六个模型呈现稳定sigmoid曲线，但一句最小提示就能恢复15个百分点。...

水印实现bit级溯源，扩散VLM进GUI定位

March 30, 2026

离散扩散VLM首次被验证可用于GUI定位，双向注意力在空间任务上展现结构性优势，数据多样性带来20点平均提升，CVPR录用 LoRA的零空间压缩程度与任务性能正相关，可直接用作合并权重信号。不依赖标签和任务类型，在异构视觉任务上达到SOTA...

Mistral自研TTS、扩散LLM加速4.7倍

March 28, 2026

Mistral成为首家自研TTS的主流LLM实验室，3秒参考音频即可语音克隆。语音合成正从专用供应商领域变成LLM厂商标配能力扩散语言模型有了首个无训练加速方案：S2D2利用block size=1的退化特性让同一模型充当drafter和verifier，最高实现4.7倍加速 On-...