去掉CLIP的VLM更强，prefill加速28倍


            
        March 9, 2026
    
    
去掉CLIP的VLM更强，prefill加速28倍


对比预训练与VLM目标天然不匹配，CLIP优化类别区分而VLM需要细粒度理解。腾讯Penguin-VL用纯文本LLM初始化视觉编码器，在2B和8B规模上反超CLIP/SigLIP方案。


稀疏注意力的瓶颈从"如何稀疏"转向"如何发现" — FlashPrefill证明注意力的稀疏模式可以近乎零成本识别，256K序列实现28倍加速，4K短上下文也不退化。


模型合并失败有了可量化的诊断指标：DC-Merge发现合并后任务向量在奇异空间的方向偏离程度直接对应知识丢失程度，修复方向一致性即可系统性改善合并质量。


扩散模型开始按信息密度分配算力。DC-DiT让高细节区域获得更多token、低信息区域压缩处理，且压缩策略随去噪阶段自适应变化，可从现有DiT检查点热启动。


也值得关注

PSIVG把物理模拟器直接嵌入扩散循环 — 与前几天RealWonder"物理引擎和视频模型各管各的"思路完全相反，同一问题的两种对立架构。原文
单张RGB图片自回归生成完整3D室内场景mesh — 跳过SDF中间表示和后优化步骤，直接输出mesh。原文
黑盒检测T2I模型是否被植入后门 — 不看生成图像相似度，而是测量指令与响应之间的偏差。原文
理解能力反向增强生成质量 — 统一多模态模型中，用理解模块提供内在奖励信号指导T2I生成。原文
扩散模型零训练做语义分割 — 分割能力能随生成能力一起scaling up。原文
免训练多模态摘要用事件链结构化融合 — 避免隐式融合导致的信息丢失。原文
肿瘤分析的多模态CoT推理 — 输出不只是诊断结论，还有可追溯的推理链路。原文
从信号处理角度重新理解SGD动量 — 梯度的频域特性揭示了为什么某些动量设置有效。原文

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)