9K样本逼近R1,RL提升大半归SFT
- 9K精选样本训出逼近DeepSeek-R1的4B推理模型,CHIMERA证明推理训练的真正瓶颈在数据的领域覆盖和筛选质量,不在规模
- Attention steering第一次能进生产部署:SEKA在频域编辑key embedding绕开FlashAttention兼容性限制,训练免、延迟可忽略。ICLR接收
- 基础视觉模型的几何先验强到可以替代传感器标定。VGGT-Det在免标定3D检测上比前最优高出4-8个mAP,CVPR接收
- RL post-training主要锐化输出分布,不扩展能力边界,控制变量实验显示SFT的支持面才是性能提升的前提
也值得关注
- Mixture of Diffusion把文本理解和视觉生成解耦但共享backbone — LLaDA-o用masked diffusion处理文本、continuous diffusion处理图像,减少冗余计算。
- RL在难题上采不到正解时,参考解能引导探索但不能直接模仿 — 人类证明超出模型分布,SFT学不了,但能作为RL搜索的方向锚点。
- GRPO在过难和过易的问题上advantage都消失 — DIVA-GRPO用难度自适应的advantage计算恢复梯度信号,ICLR接收。
- 视觉编码器对齐到覆盖1500种语言的SONAR空间 — V-SONAR直接复用已有的多语言基础设施做跨模态检索,不需要重训文本端。
- 多agent通信拓扑不该固定 — CARD根据任务条件动态生成最优拓扑结构,比固定全连接或链式传递更高效。
- Fine-tuning破坏安全性的风险在token级而非样本级 — 逐token筛选比整条样本丢弃更精确,保留更多有用训练信号。
- LLM的embedding空间具有格结构 — 把线性表示假说和形式概念分析统一在同一个数学框架下。
- 视觉编程框架做3D空间推理 — pySpatial零样本且不需要3D训练数据,用代码生成替代端到端学习。
- 遗忘不需要梯度上升或重训 — 直接平滑注意力权重就能稳定消除记忆,副作用比现有方法更小。
- LUT加空间位移做图像恢复 — ShiftLUT扩大感受野但存储和计算没涨,适合端侧部署。
Don't miss what's next. Subscribe to AI论文简报: