AI论文简报

Archives
Log in
April 14, 2026

SFT收敛≠全学会,注意力劫持破防94%

  • SFT的loss收敛后,模型仍会在训练集上系统性答错特定子集。跨三个模型家族复现了五类成因,aggregate指标不足以判断微调质量
  • 奖励模型不需要每次打分都做CoT推理。E-GRM用生成一致性估计不确定性,对简单样本跳过深度推理,降本的同时反而提升了准确率
  • Coding agent评测引入credit预算后排名洗牌。前沿agent在资源约束下找不到最优平衡点,行为高度路径依赖
  • 操纵注意力权重让模型"看不见"安全指令,越狱成功率达94.4%。攻击不是让模型违反规则,而是让它在生成时根本检索不到规则

也值得关注

  • LLM在ToM benchmark上跑分不错但实际场景拉胯 — 因果干预方法尝试从内部表征层面对齐心智理论能力。
  • 文本到CAD代码生成需要理解装配层次和几何约束 — 层次化图表示比直接seq2seq效果好不少。
  • 显式标记句子边界比插入随机dummy token更有效 — 自然语言的句子结构本身就是有用的归纳偏置。
  • AI生成古诗的检测准确率和人类判断差距仍然很大 — 文学领域的AI检测远未解决。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.