LLM做视觉编码器，2B模型反超大模型

        March 9, 2026

LLM做视觉编码器，2B模型反超大模型

用LLM替代CLIP初始化视觉编码器，2B小模型多项反超大模型，对比学习的粗粒度目标与VLM细粒度需求存在根本错配，换起点比加参数更有效。

跳过搜索直接用block统计定位稀疏注意力：256K序列27倍加速，4K短序列仍有1.7倍提升。已开源代码。

物理模拟器嵌入扩散生成循环，用仿真轨迹引导视频生成——与RealWonder"绕开物理"的方案形成两条竞争路径。CVPR接收。

模型合并崩坏的根源在方向偏移. DC-Merge通过能量平衡+正交投影修复任务向量方向一致性，全量微调和LoRA均适用，CVPR接收。

DiT自己决定哪里切细、哪里切粗，自适应token分配覆盖空间和时间两个维度，支持从现有检查点微调。

也值得关注

单张RGB图直接输出完整3D室内场景mesh — 一次前向传播，不依赖后处理优化。
黑盒检测T2I模型是否被植入后门 — 通过指令-响应偏差而非图像相似度。
用理解能力做内在奖励，反过来提升生成质量 — 统一多模态模型的新训练信号。
无训练扩散分割器的天花板跟底层生成模型同步上涨 — 生成越强，分割越准。
无需领域标注的多模态摘要 — 通过事件链拆解视频结构。
医学影像肿瘤分析的交叉模态CoT推理 — 每步可追溯到具体影像证据。
从信号处理视角分析SGD动量 — 发现梯度中存在可利用的频率结构。
单张全景图前馈生成360度3D场景 — 组合式生成，不需要迭代优化布局。
变化描述不只说结果差异 — 还建模中间变化过程。

阅读完整版 →

                                Don't miss what's next. Subscribe to AI论文简报:

            Email address (required)