RL给视频生成补3D一致性


            
        April 29, 2026
    
    
RL给视频生成补3D一致性


Microsoft用RL给视频模型补3D一致性：World-R1把3D约束做成奖励信号、配合纯文本world simulation数据集，让已部署的视频底座不动架构就能补几何能力。


Meta把图像编辑的CoT归约到五个元任务，21任务平均提升15.8%，并用CoT-Editing一致性奖励让模型"想"的和"做"的对齐。


数学域的过程奖励搬到数据分析就歇菜——DataPRM让奖励模型主动跑代码验证中间状态、用三元奖励区分试错探索和真错。


金融agent的sycophancy风险主要来自用户预先表态而非事后反驳，多数模型会跟着用户预设走，输入过滤缓解有限。


也值得关注

VLM视觉token pruning的attention-based主流路线被重新审视 — ICLR的LearnPruner指出当前依赖attention打分的剪枝方式存在系统性偏差，重新思考剪什么、怎么剪。
现有streaming VideoQA基准都是retrospective的 — Yale指出固定时间点暂停问问题反映不了真实流式响应，需要"每一帧预测都算数"的评测范式。
reason-then-act的LLM agent每步只跟单一环境交互 — ACL的DPEPO让多环境并行探索，扩大单步信息量、缓解探索不足。
用LVLM自己的输出做DPO偏好数据 — ACL：避免依赖proprietary模型构造偏好数据带来的分布漂移，自校正路径减轻幻觉。
chart-to-code一直是Python-centric — ACL把同一图表的多语言脚本作为对齐监督，让模型学到与具体语言解耦的图表语义。
VLM在动态物理场景里跨帧推理失败 — ICLR的PhysNote用self-knowledge notes让模型可演化地积累物理常识，处理textbook之外的真实场景。
金融时序从预测数字升级到advisory — ICLR这篇要求模型给方向、理由和风险管理，用hindsight preference做训练信号。
自动驾驶拓扑推理常用简化MLP — CVPR的TopoHR引入point-to-instance层级中线表征，提升拓扑推理的几何精度。
用中国科举体系评估LLM的专业级历史推理 — ACL：超出基础知识广度，考查史料考据、长时段推理这类专业能力。
CT报告生成传统metric太粗 — ACL的CT-FineBench按疾病属性做细粒度评测，让"报告整体相似"不再混淆诊断保真度。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)