AI论文简报

Archives
Log in
March 27, 2026

蒸馏砍掉模型的犹豫,OOD暴跌40%

  • 自蒸馏砍掉的是模型"犹豫"的能力,不是冗余步骤——epistemic verbalization被压制后,模型在OOD场景性能暴跌40%,评估指标却看不出来。
  • Coding agent代码冗余度比人类项目高2.2倍。 SlopCodeBench首次量化了多轮迭代中技术债的积累:11个模型无一能端到端完成任务,prompt优化治标不治本。
  • 桌面操作Agent的瓶颈是演示数据,不是模型架构:CUA-Suite把连续人类操作数据从不到20小时推到55小时,当前最强模型仍有约60%的任务失败率。
  • 训好的DiT居然还没收敛。 每个block加一个缩放系数(共约100个参数)就能提升生成质量,说明当前训练流程可能系统性地欠校准。

也值得关注

  • 从失败轨迹自我进化的移动GUI agent — 拒绝微调+信用分配两阶段让模型在线迭代变强。
  • 只有9%的agent用了自动迭代优化 — 瓶颈不在算法,而在工程师必须盲猜的隐性设计决策。
  • VLM把光栅截图还原为可编辑SVG — 设计资产丢失源文件的老问题终于有了自动化方案。
  • 微软Composer 2专为agentic coding从头训练 — 强调长期规划能力而非单次生成。
  • 自动检测agent执行轨迹中的故意违规行为 — 不只是失败,而是模型明知指令却选择偏离。
  • Code agent失败轨迹的细粒度拆解 — 终于能定位是理解错了需求还是执行走偏。
  • 医疗EHR系统的长序列操作自动化 — domain-specific computer-use agent的落地样本。
  • MLLM语义理解越强,生成恶意图像的风险越大 — 能力提升和安全风险正相关。
  • 用FPS游戏多视角视频测试agent的3D感知 — 快速变化环境中的多实体推理评测。
  • 不训练就能聚合多个VLM输出并量化不确定性 — 减少幻觉风险的免训练方案(ICLR)。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.