AI论文简报

Archives
Log in
May 2, 2026

FID当loss一步生成达0.72

  • 异构科学foundation model协作,Eywa让LLM从"通用解题器"退回到协调者,把蛋白结构、物理仿真这类任务交还给领域专精的预测模型
  • FD估计与梯度batch解耦:多年来只能当评测指标的Fréchet Distance真的做成了训练loss,post-training阶段一步生成在ImageNet 256上做到0.72 FID
  • 模糊指令+交互动作空间——InteractWeb-Bench把"主动澄清意图"从可有可无变成必考项,前沿multimodal agent在这套测试下普遍陷入盲执行
  • 可量产的"agent眼里的世界"。Synthetic Computers at Scale合成1000台用户特定电脑、单次模拟超8小时,长程agent训练的瓶颈从轨迹生成推到环境合成

也值得关注

  • 视觉生成五级taxonomy把方向从atomic appearance mapping推到agentic world modeling — framework而非新模型,价值在重新划分赛道和定位。
  • 把研究infrastructure从论文引用图升级到显式方法演化图 — Intern-Atlas专门给AI scientist系统当backbone用。
  • 任意骨架端到端mocap绕开non-differentiable IK — MoCapAnything V2直接预测关节旋转,噪声video-to-pose不再被中间层卡住。
  • 用3D语义占据预测把真实场景转成结构化Minecraft环境 — 跑VLN等下游embodied任务,相当于把游戏引擎当仿真平台。
  • 给视频扩散塞可解释的连续物理先验 — 目标是物体不漂移、碰撞反弹更真实,是PhyWorld这条线的具体补丁。
  • 把GRPO搬进latent空间 — RL第一次在隐式推理链上跑通的尝试。
  • 高并发code sandbox给LLM代码RL训练和评测用 — ScaleBox主打高保真验证而不是"能跑就行"。
  • 用因果干预切掉reward model对response length的依赖 — 比单纯做长度归一化更系统。
  • OpenAI放出真实临床医生在ChatGPT上的对话评测集 — 医疗LLM评测从模拟题转向真实工作流场景。
  • 1084张专家整理的科学实验图、4264个QA — SPUR专测panel级别的细粒度感知到推理。
  • AI生成学术图的forensic benchmark,7类39子类 — AEGIS让AI学术造假检测进入细粒度评测阶段。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.