扩散OCR解码快3.2倍，单流架构2秒出片


            
        March 25, 2026
    
    
扩散OCR解码快3.2倍，单流架构2秒出片


扩散解码替代自回归，文档OCR从串行跳到并行。 MinerU-Diffusion把文档解析重定义为逆渲染问题，用分块扩散解码器并行生成结构化源码，解码速度提升3.2倍，开源可用


RLVR训练信号的方向比幅度更重要： token级Δlog p的正负号能更精准定位推理关键的稀疏更新，据此提出的推理外推和训练加权方法不改架构即可应用


多任务SFT存在大量隐性计算浪费， 不同子数据集过拟合速度差异巨大。mSFT迭代剔除先过拟合的数据集，低预算下同时降FLOPs提效果


视频GRPO不稳定的根源是探索噪声偏离数据流形。 ODE→SDE转换把采样轨迹推离预训练分布，SAGE-GRPO用流形投影式探索加双信赖域约束修复，在HunyuanVideo上验证有效


音视频联合生成不需要多流架构 — 文本/视频/音频拼成单一token序列只用self-attention，单H100上5秒视频2秒生成，完整模型栈开源


也值得关注

世界模型评估从视觉保真度转向4D交互能力 — 以物理一致性和可控性为核心指标的新评估范式。Omni-WorldBench
LLM Agent工作流从静态模板到动态运行时图 — 按"结构何时确定"组织文献的系统性综述，对架构选型有直接参考价值。From Static Templates to Dynamic Runtime Graphs
不改视觉编码器，用语言引导推理注入3D空间感知 — 从2D预训练表示中榨出被忽视的空间理解能力。SpatialBoost
几何基础模型的特征空间复用为扩散潜空间 — 多视角几何一致性直接内建而非后处理。Repurposing Geometric Foundation Models
递归自我改进的漂移问题有了新解法 — 用符号验证做锚点，在DPO迭代中稳定推理链质量。Symbolic Recursive Self-Alignment
视频LLM时空token压缩统一到单一框架 — 超低保留率下仍维持性能，比分阶段剪枝更高效。Unified Spatiotemporal Token Compression
让语音对话模型遵守时间约束生成指定时长回复 — 语音助手部署时的刚需能力，MIT开源post-training方案。TiCo
多模态大模型的持续遗忘 — 面对连续删除请求时如何选择性拒绝而不破坏共享表征。Continual Unlearning for LVLMs
手-物交互从三个割裂赛道统一到一个sim-to-real框架 — 姿态、外观、运动一体化生成。PAM
图像修复的test-time scaling — 推理阶段调优flow matching模型，不动预训练权重适配退化类型。Tuning Real-World IR at Inference

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)