9K样本逼近R1，RL提升大半归SFT


            
        March 3, 2026
    
    
9K样本逼近R1，RL提升大半归SFT


9K精选样本训出逼近DeepSeek-R1的4B推理模型，CHIMERA证明推理训练的真正瓶颈在数据的领域覆盖和筛选质量，不在规模


Attention steering第一次能进生产部署：SEKA在频域编辑key embedding绕开FlashAttention兼容性限制，训练免、延迟可忽略。ICLR接收


基础视觉模型的几何先验强到可以替代传感器标定。VGGT-Det在免标定3D检测上比前最优高出4-8个mAP，CVPR接收


RL post-training主要锐化输出分布，不扩展能力边界，控制变量实验显示SFT的支持面才是性能提升的前提


也值得关注

Mixture of Diffusion把文本理解和视觉生成解耦但共享backbone — LLaDA-o用masked diffusion处理文本、continuous diffusion处理图像，减少冗余计算。
RL在难题上采不到正解时，参考解能引导探索但不能直接模仿 — 人类证明超出模型分布，SFT学不了，但能作为RL搜索的方向锚点。
GRPO在过难和过易的问题上advantage都消失 — DIVA-GRPO用难度自适应的advantage计算恢复梯度信号，ICLR接收。
视觉编码器对齐到覆盖1500种语言的SONAR空间 — V-SONAR直接复用已有的多语言基础设施做跨模态检索，不需要重训文本端。
多agent通信拓扑不该固定 — CARD根据任务条件动态生成最优拓扑结构，比固定全连接或链式传递更高效。
Fine-tuning破坏安全性的风险在token级而非样本级 — 逐token筛选比整条样本丢弃更精确，保留更多有用训练信号。
LLM的embedding空间具有格结构 — 把线性表示假说和形式概念分析统一在同一个数学框架下。
视觉编程框架做3D空间推理 — pySpatial零样本且不需要3D训练数据，用代码生成替代端到端学习。
遗忘不需要梯度上升或重训 — 直接平滑注意力权重就能稳定消除记忆，副作用比现有方法更小。
LUT加空间位移做图像恢复 — ShiftLUT扩大感受野但存储和计算没涨，适合端侧部署。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)