AI论文简报

Archives
Log in
March 9, 2026

LLM做视觉编码器,2B模型反超大模型

  • 用LLM替代CLIP初始化视觉编码器,2B小模型多项反超大模型,对比学习的粗粒度目标与VLM细粒度需求存在根本错配,换起点比加参数更有效。
  • 跳过搜索直接用block统计定位稀疏注意力:256K序列27倍加速,4K短序列仍有1.7倍提升。已开源代码。
  • 物理模拟器嵌入扩散生成循环,用仿真轨迹引导视频生成——与RealWonder"绕开物理"的方案形成两条竞争路径。CVPR接收。
  • 模型合并崩坏的根源在方向偏移. DC-Merge通过能量平衡+正交投影修复任务向量方向一致性,全量微调和LoRA均适用,CVPR接收。
  • DiT自己决定哪里切细、哪里切粗,自适应token分配覆盖空间和时间两个维度,支持从现有检查点微调。

也值得关注

  • 单张RGB图直接输出完整3D室内场景mesh — 一次前向传播,不依赖后处理优化。
  • 黑盒检测T2I模型是否被植入后门 — 通过指令-响应偏差而非图像相似度。
  • 用理解能力做内在奖励,反过来提升生成质量 — 统一多模态模型的新训练信号。
  • 无训练扩散分割器的天花板跟底层生成模型同步上涨 — 生成越强,分割越准。
  • 无需领域标注的多模态摘要 — 通过事件链拆解视频结构。
  • 医学影像肿瘤分析的交叉模态CoT推理 — 每步可追溯到具体影像证据。
  • 从信号处理视角分析SGD动量 — 发现梯度中存在可利用的频率结构。
  • 单张全景图前馈生成360度3D场景 — 组合式生成,不需要迭代优化布局。
  • 变化描述不只说结果差异 — 还建模中间变化过程。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.