8%的token决定reasoning差距


            
        May 19, 2026
    
    
8%的token决定reasoning差距


RLVR里的"不可学习"现象：一批困难样本即便在rollout里出过正确答案，整个训练也永远学不会，奖励曲线照涨——涨的其实是更易学子集的部分。


reasoning优势是稀疏的：base和reasoning model的差距高度集中在约8%的token上，富集在响应早期的planning决策位置。


单模型红队不再算保护：把一组前沿模型当成集合并发查询，任何一个守不住就够拿到有害输出，最高成功率100%。


WOW-Seg跳过文本prompt：Meta用Mask2Token把mask直接对齐VLLM特征空间，1/8参数超过LVIS上的SOTA。


3D重建给扩散prior加幻视分数图：HAD用前馈式新视角网络做交叉验证，像素级遮掉不可靠区域。


也值得关注

D²Evo给"medium难度样本随训练漂移"配了一组双层难度估计 — 和今天的RLVR-Unlearnability放一起读，正好覆盖curriculum重校准里"剔不可学"和"追中间难度"两端。
GUI agent的self-evolution框架，过往episode写成可检索memory而不是塞回context — 避开了多步任务里context窗口受限和静态策略适应性差两个老问题。
TRACE做多视频事件理解的evidence grounding — 视频agent处理长heterogeneous语料时不再被context预算限死，定位+归因证据scatter across多个视频。
SSL里projection head的几何理论分析 — 把head建成trainable Riemannian metric，给collapse和invariance这些工程经验找了一组解释。
PluRule：同一内容在不同社区规则下的合规判定 — 多元化治理趋势下，内容审核模型要面对的是compositional压力测试，不再是单一规则集。
模态缺失下的情感分析换思路：不再"生成补齐"，而是直接处理decision drift — 真实数据里模态缺失和质量不均衡是常态，feature生成路线有自身代价。
多任务线性回归的污染鲁棒性结果 — 理论侧，但能用来反推现实多任务训练里outlier task的容忍度上界。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)