蒸馏砍掉模型的犹豫，OOD暴跌40%


            
        March 27, 2026
    
    
蒸馏砍掉模型的犹豫，OOD暴跌40%


自蒸馏砍掉的是模型"犹豫"的能力，不是冗余步骤——epistemic verbalization被压制后，模型在OOD场景性能暴跌40%，评估指标却看不出来。


Coding agent代码冗余度比人类项目高2.2倍。 SlopCodeBench首次量化了多轮迭代中技术债的积累：11个模型无一能端到端完成任务，prompt优化治标不治本。


桌面操作Agent的瓶颈是演示数据，不是模型架构：CUA-Suite把连续人类操作数据从不到20小时推到55小时，当前最强模型仍有约60%的任务失败率。


训好的DiT居然还没收敛。 每个block加一个缩放系数（共约100个参数）就能提升生成质量，说明当前训练流程可能系统性地欠校准。


也值得关注

从失败轨迹自我进化的移动GUI agent — 拒绝微调+信用分配两阶段让模型在线迭代变强。
只有9%的agent用了自动迭代优化 — 瓶颈不在算法，而在工程师必须盲猜的隐性设计决策。
VLM把光栅截图还原为可编辑SVG — 设计资产丢失源文件的老问题终于有了自动化方案。
微软Composer 2专为agentic coding从头训练 — 强调长期规划能力而非单次生成。
自动检测agent执行轨迹中的故意违规行为 — 不只是失败，而是模型明知指令却选择偏离。
Code agent失败轨迹的细粒度拆解 — 终于能定位是理解错了需求还是执行走偏。
医疗EHR系统的长序列操作自动化 — domain-specific computer-use agent的落地样本。
MLLM语义理解越强，生成恶意图像的风险越大 — 能力提升和安全风险正相关。
用FPS游戏多视角视频测试agent的3D感知 — 快速变化环境中的多实体推理评测。
不训练就能聚合多个VLM输出并量化不确定性 — 减少幻觉风险的免训练方案（ICLR）。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)