ViT改用LM目标预训练替代CLIP
- GenLIP让ViT直接用LM目标预训练:抛掉CLIP的对比学习和text decoder,8B样本量在多模态benchmark上打平更大数据baseline,多分辨率续训对OCR和图表理解还有额外收益。
- UniVidX用一套VDM先验跑多个pixel-aligned视频任务——SCM加每模态Gated LoRA路由把内在分解、RGBA分层这类任务塞进同一框架,不到1000视频就能打平专用方法。
- Themis给code RM补上多准则、多语言评分:profile显示现有RM在功能正确性之外几乎全军覆没,35万+偏好对训出600M到32B的开源系列。
- 图像越狱VLM成功率40.9%,纯文本只有10.7%——四种把有害指令编进图像的攻击模式可直接复用为内部红队脚本,但编码类绕过的长期持久性要看防御方加视觉审核后的复测。
也值得关注
- tokenizer不再独立训 — 直接被generation loss端到端监督,重写autoregressive image modeling的训练管线。
- RLVR对正奖励过度激励让生成多样性塌缩 — 用负样本投影残差做补偿。
- 从动力系统视角重新解释LLM mode collapse — 给出几何正则的轻量解法。
- GUI agent的accessibility tree又冗余又缺结构 — 重构观测可以直接压token成本。
- text-to-3D world generation用segment map做layout条件 — 绕开网格化布局和跨物体尺度不一致。
- 多智能体MCTS的joint action空间会爆炸 — 用surrogate-guided exploration把搜索预算压回可行范围。
- 网格物理的拓扑结构和度量结构分开建模 — port-Hamiltonian给出结构保持的神经实现。
- 贝叶斯成本高、ensemble方差大 — possibility理论给epistemic uncertainty第三个选项。
- 病理图像联邦学习的异构性来自MIL架构和feature extractor不一致 — 高斯混合特征对齐+课程整合。
Don't miss what's next. Subscribe to AI论文简报: