ViT改用LM目标预训练替代CLIP


            
        May 4, 2026
    
    
ViT改用LM目标预训练替代CLIP


GenLIP让ViT直接用LM目标预训练：抛掉CLIP的对比学习和text decoder，8B样本量在多模态benchmark上打平更大数据baseline，多分辨率续训对OCR和图表理解还有额外收益。


UniVidX用一套VDM先验跑多个pixel-aligned视频任务——SCM加每模态Gated LoRA路由把内在分解、RGBA分层这类任务塞进同一框架，不到1000视频就能打平专用方法。


Themis给code RM补上多准则、多语言评分：profile显示现有RM在功能正确性之外几乎全军覆没，35万+偏好对训出600M到32B的开源系列。


图像越狱VLM成功率40.9%，纯文本只有10.7%——四种把有害指令编进图像的攻击模式可直接复用为内部红队脚本，但编码类绕过的长期持久性要看防御方加视觉审核后的复测。


也值得关注

tokenizer不再独立训 — 直接被generation loss端到端监督，重写autoregressive image modeling的训练管线。
RLVR对正奖励过度激励让生成多样性塌缩 — 用负样本投影残差做补偿。
从动力系统视角重新解释LLM mode collapse — 给出几何正则的轻量解法。
GUI agent的accessibility tree又冗余又缺结构 — 重构观测可以直接压token成本。
text-to-3D world generation用segment map做layout条件 — 绕开网格化布局和跨物体尺度不一致。
多智能体MCTS的joint action空间会爆炸 — 用surrogate-guided exploration把搜索预算压回可行范围。
网格物理的拓扑结构和度量结构分开建模 — port-Hamiltonian给出结构保持的神经实现。
贝叶斯成本高、ensemble方差大 — possibility理论给epistemic uncertainty第三个选项。
病理图像联邦学习的异构性来自MIL架构和feature extractor不一致 — 高斯混合特征对齐+课程整合。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)