FID当loss一步生成达0.72


            
        May 2, 2026
    
    
FID当loss一步生成达0.72


异构科学foundation model协作，Eywa让LLM从"通用解题器"退回到协调者，把蛋白结构、物理仿真这类任务交还给领域专精的预测模型


FD估计与梯度batch解耦：多年来只能当评测指标的Fréchet Distance真的做成了训练loss，post-training阶段一步生成在ImageNet 256上做到0.72 FID


模糊指令+交互动作空间——InteractWeb-Bench把"主动澄清意图"从可有可无变成必考项，前沿multimodal agent在这套测试下普遍陷入盲执行


可量产的"agent眼里的世界"。Synthetic Computers at Scale合成1000台用户特定电脑、单次模拟超8小时，长程agent训练的瓶颈从轨迹生成推到环境合成


也值得关注

视觉生成五级taxonomy把方向从atomic appearance mapping推到agentic world modeling — framework而非新模型，价值在重新划分赛道和定位。
把研究infrastructure从论文引用图升级到显式方法演化图 — Intern-Atlas专门给AI scientist系统当backbone用。
任意骨架端到端mocap绕开non-differentiable IK — MoCapAnything V2直接预测关节旋转，噪声video-to-pose不再被中间层卡住。
用3D语义占据预测把真实场景转成结构化Minecraft环境 — 跑VLN等下游embodied任务，相当于把游戏引擎当仿真平台。
给视频扩散塞可解释的连续物理先验 — 目标是物体不漂移、碰撞反弹更真实，是PhyWorld这条线的具体补丁。
把GRPO搬进latent空间 — RL第一次在隐式推理链上跑通的尝试。
高并发code sandbox给LLM代码RL训练和评测用 — ScaleBox主打高保真验证而不是"能跑就行"。
用因果干预切掉reward model对response length的依赖 — 比单纯做长度归一化更系统。
OpenAI放出真实临床医生在ChatGPT上的对话评测集 — 医疗LLM评测从模拟题转向真实工作流场景。
1084张专家整理的科学实验图、4264个QA — SPUR专测panel级别的细粒度感知到推理。
AI生成学术图的forensic benchmark，7类39子类 — AEGIS让AI学术造假检测进入细粒度评测阶段。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)