AI论文简报
Archives
Search...
Log in
Subscribe
腾讯开源3D世界生成、VLM偏科探针
April 17, 2026
腾讯HY-World 2.0把3D世界生成做进工程可用:四阶段pipeline(全景→轨迹→视角扩展→多视图合成),文字或单图直接出可导航3DGS场景,开源对标闭源Marble。...
大模型更抗谣言却更易被噪声带跑
April 16, 2026
Agent失败可以拆成两类可测的错误:死磕一条路(exploit过强)和漫无方向(explore过度)能用黑盒指标分开度量,不需要访问模型内部策略,frontier模型失败模式差异明显 scaling把"看context"拆成两种反向变化的子能力。 Google在两个模型家族上给出首个contextual...
VLM换规则就崩·DLM加速4倍
April 15, 2026
VLM看得懂棋面,却无法遵循替代规则——14个模型在同一终局画面上,标准规则准确率显著高于反转规则,研究者将此命名为"语义固化",对需要模型遵循自定义规则的应用是个警示 英文安全对齐在低资源语言下断崖式失效。 LASA在模型语义瓶颈层做语言无关对齐,将LLaMA-3.1的平均攻击成功率从24.7%降至2.8%...
PRM标注成本降两个数量级,dLLM幻觉错法不同
April 14, 2026
dLLM的幻觉模式跟自回归完全不同,首个受控对比实验识别出三种特有故障模式(过早终止、去噪不完全、上下文侵入),现有检测工具需要针对性重新设计 对比互信息让过程奖励标注成本降两个数量级:直接从模型内部概率提取步骤级信号,不需要反复采样rollout。ACL接收...
SFT收敛≠全学会,注意力劫持破防94%
April 14, 2026
SFT的loss收敛后,模型仍会在训练集上系统性答错特定子集。跨三个模型家族复现了五类成因,aggregate指标不足以判断微调质量 奖励模型不需要每次打分都做CoT推理。E-GRM用生成一致性估计不确定性,对简单样本跳过深度推理,降本的同时反而提升了准确率 Coding...
DMax让扩散LM并行效率提升近3倍
April 12, 2026
腾讯用一个VLM统一了机器人的感知和规划,释出2B端侧+32B推理双规格模型,模块化pipeline的复杂度优势可能不再成立 扩散语言模型的并行解码效率提升近3倍:DMax用连续embedding插值替代二值跳变,两块H200跑到每秒1,338 token...
打乱音视频练推理,6B模型超GPT-4o
April 11, 2026
Agent技能应该从用户群体中自进化:SkillClaw把多用户交互轨迹变成skill进化信号,一个人的修正自动同步全员,给Agent系统装上组织记忆 小模型压缩比大模型硬看更聪明,Tempo用6B模型根据问题动态筛选关键帧,8K token预算下超过GPT-4o和Gemini 1.5 Pro...
微调即加速1.7倍,token崩的不是channel
April 10, 2026
纯微调就能让LLM一步吐多个token, MARS不改架构不加参数,Qwen2.5-7B实测加速1.71倍,部署迁移成本几乎为零 图像自编码器压缩崩了别急着加channel——TC-AE发现真正塌缩的是token利用率,从token空间入手反而更简单有效 World model的空间一致性和实时性终于不用二选一。...
Entropy在骗你,隐式推理止于7步
April 9, 2026
Entropy稳定不代表推理健康。 RAGEN-2发现agentic RL中的"模板坍缩"——模型用固定模板应对所有输入,entropy完全看不出来,互信息才是更可靠的训练监控指标 Meta试图让模型本身成为计算机——Neural...
单GPU训120B·视频评测四成靠猜
April 8, 2026
单卡全精度训120B参数,吞吐量比DeepSpeed快1.84倍。 MegaTrain把GPU降级为临时计算引擎,参数全存CPU内存,流水线双缓冲突破带宽瓶颈,单机路线的性价比值得小团队评估...
视频问答跑到2FPS,RLVR自带噪声过滤
April 8, 2026
VideoLLM实现2FPS流式视频问答,AURA用端到端架构统一持续感知和主动响应,集成ASR+TTS已跑通可交互原型。 Agent信息过时怎么办,ClawArena给出系统评测——64个场景覆盖动态更新下的信念维护,发现框架设计的影响接近模型能力差异的60%。...
Diffusion推理省54%算力不降质
April 7, 2026
Diffusion推理砍半算力质量反升,DiffSparse用可学习predictor逐层逐步决定token稀疏率,PixArt-α上省54%计算量,与蒸馏/量化的叠加效果待验证 多角色视频的身份混淆根源在位置编码:PoCo从position...
32B硬件代码开源进第一梯队,Agent难题仅23%
April 6, 2026
硬件代码调试有了开源32B选项,InCoder从工程师实际犯错过程中蒸馏推理链,在LiveCodeBench和CAD-Coder上进入开源第一梯队,不过KernelBench 38%说明GPU优化类任务离实用仍远 CLIP的空间语义短板是训练目标决定的。CoME-...
Agent难题仅23%过关,CLIP三年路径依赖
April 6, 2026
错误驱动的思维链合成,填补工业代码推理数据空白——InCoder用模型与环境错误反馈的多轮交互生成推理轨迹,这套数据合成策略可迁移到任何缺乏公开专家数据的垂直领域。 CLIP单编码器用了三年,可能只是路径依赖。CoME-VL融合对比与自监督编码器,定位任务提升5.4%,消融实验揭示了融合的scaling边界。...
400万游戏帧练渲染,技能内化胜过检索
April 4, 2026
离散token是LLM的架构天花板而非优化目标,综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。 Agent技能用RL内化进参数比检索注入更强:SKILL0的渐进撤除课程在ALFWorld上提升9.7%,推理时每步上下文不到500 token。...
单神经元记住实体,套路复用提效19%
April 3, 2026
单个MLP神经元能触发实体级"失忆",Google在200个实体上验证了因果关系,知识编辑可能从大面积手术变成精准定位 从推理轨迹提取可复用解题套路:3200万条程序性知识让模型不再每题从零推理,最高提升19.2%...
极简Agent打平MCP,代码推理边写边想
April 3, 2026
终端+文件系统的极简Agent打平全副武装MCP方案,72个HF upvotes说明从业者对Agent过度工程的集体焦虑不是空穴来风——但评估任务是否覆盖真实企业场景的全部复杂度,仍需追问 代码生成按需插入推理token,四个基准全部SOTA:Think-...
配比成本降35倍,显眼词劫持推理38倍
April 1, 2026
数据配比从训前超参变为训后优化,OptiMer为每个数据集单独训模型后在参数空间搜索最优合并权重,搜索成本降低15-35倍。 表面线索对LLM推理方向的劫持力是目标约束的8-38倍:跨六个模型呈现稳定sigmoid曲线,但一句最小提示就能恢复15个百分点。...
水印实现bit级溯源,扩散VLM进GUI定位
March 30, 2026
离散扩散VLM首次被验证可用于GUI定位,双向注意力在空间任务上展现结构性优势,数据多样性带来20点平均提升,CVPR录用 LoRA的零空间压缩程度与任务性能正相关,可直接用作合并权重信号。不依赖标签和任务类型,在异构视觉任务上达到SOTA...
Mistral自研TTS、扩散LLM加速4.7倍
March 28, 2026
Mistral成为首家自研TTS的主流LLM实验室,3秒参考音频即可语音克隆。语音合成正从专用供应商领域变成LLM厂商标配能力 扩散语言模型有了首个无训练加速方案:S2D2利用block size=1的退化特性让同一模型充当drafter和verifier,最高实现4.7倍加速 On-...
Newer archives
Older archives