AI论文简报

Archives
Log in
March 11, 2026

先写代码再画图,排版提升68%

  • 所有intrinsic RLVR本质是锐化初始分布,模型先验质量决定训练天花板。Model Collapse Step可在跑RL前预判可行性,避免无效投入
  • 代码比自然语言更适合做空间推理链:结构化布局基准提升68.83%,密集排版和多元素场景改善最为显著
  • 模仿学习的结构性缺陷是缺少判断力训练。 ACT用RL让模型在候选动作间做对比评估,批判能力可迁移到分布外任务
  • 高噪声扩散状态的信息量等价于低分辨率小图,全分辨率处理是冗余计算。理论扎实,但高分辨率场景的质量tradeoff待验证

也值得关注

  • 统一编辑器用MoE路由动态分配条件信号权重 — 解决多任务静态融合导致的相互干扰。
  • 自回归长视频的误差累积有了新解法 — 层级去噪在时序连续性和画面质量之间找到更好的平衡点。
  • 400道专家级agent任务覆盖法律、金融、医疗 — 直接对标百万美元级真实决策场景。
  • ViT微调时显式引导关注语义概念而非背景线索 — 有效提升分布偏移下的鲁棒性。
  • 测试时自适应学习新类别,无需重新训练 — 面向在线流式场景的实用能力。
  • 评测VLM识别细微视觉差异的推理能力 — 面向工业质检和医学影像等精细判断场景。
  • 从权重方向角度理解扩散蒸馏 — 实现更稳定的一步图像生成。
  • 用原型引导擦除扩散模型中的宽泛概念 — 可移除整个艺术风格而非仅限单一角色。
  • LLM通过条件token切换行为模式 — 类似变色龙适应环境的内在行为可塑性。
  • 稀疏注意力跳过的块用线性补偿恢复 — 视频生成提速且不损失质量。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.