8%的token决定reasoning差距
- RLVR里的"不可学习"现象:一批困难样本即便在rollout里出过正确答案,整个训练也永远学不会,奖励曲线照涨——涨的其实是更易学子集的部分。
- reasoning优势是稀疏的:base和reasoning model的差距高度集中在约8%的token上,富集在响应早期的planning决策位置。
- 单模型红队不再算保护:把一组前沿模型当成集合并发查询,任何一个守不住就够拿到有害输出,最高成功率100%。
- WOW-Seg跳过文本prompt:Meta用Mask2Token把mask直接对齐VLLM特征空间,1/8参数超过LVIS上的SOTA。
- 3D重建给扩散prior加幻视分数图:HAD用前馈式新视角网络做交叉验证,像素级遮掉不可靠区域。
也值得关注
- D²Evo给"medium难度样本随训练漂移"配了一组双层难度估计 — 和今天的RLVR-Unlearnability放一起读,正好覆盖curriculum重校准里"剔不可学"和"追中间难度"两端。
- GUI agent的self-evolution框架,过往episode写成可检索memory而不是塞回context — 避开了多步任务里context窗口受限和静态策略适应性差两个老问题。
- TRACE做多视频事件理解的evidence grounding — 视频agent处理长heterogeneous语料时不再被context预算限死,定位+归因证据scatter across多个视频。
- SSL里projection head的几何理论分析 — 把head建成trainable Riemannian metric,给collapse和invariance这些工程经验找了一组解释。
- PluRule:同一内容在不同社区规则下的合规判定 — 多元化治理趋势下,内容审核模型要面对的是compositional压力测试,不再是单一规则集。
- 模态缺失下的情感分析换思路:不再"生成补齐",而是直接处理decision drift — 真实数据里模态缺失和质量不均衡是常态,feature生成路线有自身代价。
- 多任务线性回归的污染鲁棒性结果 — 理论侧,但能用来反推现实多任务训练里outlier task的容忍度上界。
Don't miss what's next. Subscribe to AI论文简报: