SFT收敛≠全学会，注意力劫持破防94%


            
        April 14, 2026
    
    
SFT收敛≠全学会，注意力劫持破防94%


SFT的loss收敛后，模型仍会在训练集上系统性答错特定子集。跨三个模型家族复现了五类成因，aggregate指标不足以判断微调质量


奖励模型不需要每次打分都做CoT推理。E-GRM用生成一致性估计不确定性，对简单样本跳过深度推理，降本的同时反而提升了准确率


Coding agent评测引入credit预算后排名洗牌。前沿agent在资源约束下找不到最优平衡点，行为高度路径依赖


操纵注意力权重让模型"看不见"安全指令，越狱成功率达94.4%。攻击不是让模型违反规则，而是让它在生成时根本检索不到规则


也值得关注

LLM在ToM benchmark上跑分不错但实际场景拉胯 — 因果干预方法尝试从内部表征层面对齐心智理论能力。
文本到CAD代码生成需要理解装配层次和几何约束 — 层次化图表示比直接seq2seq效果好不少。
显式标记句子边界比插入随机dummy token更有效 — 自然语言的句子结构本身就是有用的归纳偏置。
AI生成古诗的检测准确率和人类判断差距仍然很大 — 文学领域的AI检测远未解决。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)