Mistral自研TTS、扩散LLM加速4.7倍


            
        March 28, 2026
    
    
Mistral自研TTS、扩散LLM加速4.7倍


Mistral成为首家自研TTS的主流LLM实验室，3秒参考音频即可语音克隆。语音合成正从专用供应商领域变成LLM厂商标配能力


扩散语言模型有了首个无训练加速方案：S2D2利用block size=1的退化特性让同一模型充当drafter和verifier，最高实现4.7倍加速


On-policy蒸馏的sampled-token实现在长序列下本质脆弱。三个failure mode和对应修复方案，是做知识传递团队的现成排查清单


万亿参数科学模型Intern-S1-Pro声称覆盖100+任务，工程基建扎实，但领域覆盖深度需要细分评测才能判断


也值得关注

对称联合训练解耦表情编辑的语义重叠 — 105个HF点赞，社区对可控生成的需求很实在。PixelSmile
把大规模编辑模型反过来做图像修复 — 泛化能力碾压专用修复模型，思路比结果更值得关注。RealRestorer
多参考图生成随输入数量增加急剧退化 — 根因是数据集缺少结构化长上下文监督，典型的数据瓶颈而非模型瓶颈。MACRO
逐层均匀量化浪费精度预算 — SliderQuant按层敏感度分配比特，ICLR接收。SliderQuant
非拉丁文tokenization的语言学方案 — OpenAI提出先按结构分离再BPE压缩，解决复杂文字系统的token效率。WWHO
视觉基础模型推理时只用单一分辨率是在浪费多尺度能力 — 低分辨率看全局、高分辨率看细节，两者互补。MuRF
视频数据的运动质量和画面质量天然矛盾 — 按去噪时间步选择性使用不同质量数据，比筛选完美数据更聪明。Timestep Selective Training
GRPO直接优化VLM中MoE的专家路由 — 让RL信号指导稀疏激活分配，CVPR接收。MoE-GRPO
微控制器上pointwise卷积占大头内存 — MIT用超网络生成压缩权重，TinyML的生成式压缩思路。HYPERTINYPW
3D医学影像塞进多模态LLM的计算瓶颈 — 自适应token长度保留体积连续性，ICLR接收。Photon

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)