AI论文简报

Archives
Log in
March 25, 2026

扩散OCR解码快3.2倍,单流架构2秒出片

  • 扩散解码替代自回归,文档OCR从串行跳到并行。 MinerU-Diffusion把文档解析重定义为逆渲染问题,用分块扩散解码器并行生成结构化源码,解码速度提升3.2倍,开源可用
  • RLVR训练信号的方向比幅度更重要: token级Δlog p的正负号能更精准定位推理关键的稀疏更新,据此提出的推理外推和训练加权方法不改架构即可应用
  • 多任务SFT存在大量隐性计算浪费, 不同子数据集过拟合速度差异巨大。mSFT迭代剔除先过拟合的数据集,低预算下同时降FLOPs提效果
  • 视频GRPO不稳定的根源是探索噪声偏离数据流形。 ODE→SDE转换把采样轨迹推离预训练分布,SAGE-GRPO用流形投影式探索加双信赖域约束修复,在HunyuanVideo上验证有效
  • 音视频联合生成不需要多流架构 — 文本/视频/音频拼成单一token序列只用self-attention,单H100上5秒视频2秒生成,完整模型栈开源

也值得关注

  • 世界模型评估从视觉保真度转向4D交互能力 — 以物理一致性和可控性为核心指标的新评估范式。Omni-WorldBench
  • LLM Agent工作流从静态模板到动态运行时图 — 按"结构何时确定"组织文献的系统性综述,对架构选型有直接参考价值。From Static Templates to Dynamic Runtime Graphs
  • 不改视觉编码器,用语言引导推理注入3D空间感知 — 从2D预训练表示中榨出被忽视的空间理解能力。SpatialBoost
  • 几何基础模型的特征空间复用为扩散潜空间 — 多视角几何一致性直接内建而非后处理。Repurposing Geometric Foundation Models
  • 递归自我改进的漂移问题有了新解法 — 用符号验证做锚点,在DPO迭代中稳定推理链质量。Symbolic Recursive Self-Alignment
  • 视频LLM时空token压缩统一到单一框架 — 超低保留率下仍维持性能,比分阶段剪枝更高效。Unified Spatiotemporal Token Compression
  • 让语音对话模型遵守时间约束生成指定时长回复 — 语音助手部署时的刚需能力,MIT开源post-training方案。TiCo
  • 多模态大模型的持续遗忘 — 面对连续删除请求时如何选择性拒绝而不破坏共享表征。Continual Unlearning for LVLMs
  • 手-物交互从三个割裂赛道统一到一个sim-to-real框架 — 姿态、外观、运动一体化生成。PAM
  • 图像修复的test-time scaling — 推理阶段调优flow matching模型,不动预训练权重适配退化类型。Tuning Real-World IR at Inference

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.