AI论文简报

Archives
Log in
March 28, 2026

Mistral自研TTS、扩散LLM加速4.7倍

  • Mistral成为首家自研TTS的主流LLM实验室,3秒参考音频即可语音克隆。语音合成正从专用供应商领域变成LLM厂商标配能力
  • 扩散语言模型有了首个无训练加速方案:S2D2利用block size=1的退化特性让同一模型充当drafter和verifier,最高实现4.7倍加速
  • On-policy蒸馏的sampled-token实现在长序列下本质脆弱。三个failure mode和对应修复方案,是做知识传递团队的现成排查清单
  • 万亿参数科学模型Intern-S1-Pro声称覆盖100+任务,工程基建扎实,但领域覆盖深度需要细分评测才能判断

也值得关注

  • 对称联合训练解耦表情编辑的语义重叠 — 105个HF点赞,社区对可控生成的需求很实在。PixelSmile
  • 把大规模编辑模型反过来做图像修复 — 泛化能力碾压专用修复模型,思路比结果更值得关注。RealRestorer
  • 多参考图生成随输入数量增加急剧退化 — 根因是数据集缺少结构化长上下文监督,典型的数据瓶颈而非模型瓶颈。MACRO
  • 逐层均匀量化浪费精度预算 — SliderQuant按层敏感度分配比特,ICLR接收。SliderQuant
  • 非拉丁文tokenization的语言学方案 — OpenAI提出先按结构分离再BPE压缩,解决复杂文字系统的token效率。WWHO
  • 视觉基础模型推理时只用单一分辨率是在浪费多尺度能力 — 低分辨率看全局、高分辨率看细节,两者互补。MuRF
  • 视频数据的运动质量和画面质量天然矛盾 — 按去噪时间步选择性使用不同质量数据,比筛选完美数据更聪明。Timestep Selective Training
  • GRPO直接优化VLM中MoE的专家路由 — 让RL信号指导稀疏激活分配,CVPR接收。MoE-GRPO
  • 微控制器上pointwise卷积占大头内存 — MIT用超网络生成压缩权重,TinyML的生成式压缩思路。HYPERTINYPW
  • 3D医学影像塞进多模态LLM的计算瓶颈 — 自适应token长度保留体积连续性,ICLR接收。Photon

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.