RL给视频生成补3D一致性
- Microsoft用RL给视频模型补3D一致性:World-R1把3D约束做成奖励信号、配合纯文本world simulation数据集,让已部署的视频底座不动架构就能补几何能力。
- Meta把图像编辑的CoT归约到五个元任务,21任务平均提升15.8%,并用CoT-Editing一致性奖励让模型"想"的和"做"的对齐。
- 数学域的过程奖励搬到数据分析就歇菜——DataPRM让奖励模型主动跑代码验证中间状态、用三元奖励区分试错探索和真错。
- 金融agent的sycophancy风险主要来自用户预先表态而非事后反驳,多数模型会跟着用户预设走,输入过滤缓解有限。
也值得关注
- VLM视觉token pruning的attention-based主流路线被重新审视 — ICLR的LearnPruner指出当前依赖attention打分的剪枝方式存在系统性偏差,重新思考剪什么、怎么剪。
- 现有streaming VideoQA基准都是retrospective的 — Yale指出固定时间点暂停问问题反映不了真实流式响应,需要"每一帧预测都算数"的评测范式。
- reason-then-act的LLM agent每步只跟单一环境交互 — ACL的DPEPO让多环境并行探索,扩大单步信息量、缓解探索不足。
- 用LVLM自己的输出做DPO偏好数据 — ACL:避免依赖proprietary模型构造偏好数据带来的分布漂移,自校正路径减轻幻觉。
- chart-to-code一直是Python-centric — ACL把同一图表的多语言脚本作为对齐监督,让模型学到与具体语言解耦的图表语义。
- VLM在动态物理场景里跨帧推理失败 — ICLR的PhysNote用self-knowledge notes让模型可演化地积累物理常识,处理textbook之外的真实场景。
- 金融时序从预测数字升级到advisory — ICLR这篇要求模型给方向、理由和风险管理,用hindsight preference做训练信号。
- 自动驾驶拓扑推理常用简化MLP — CVPR的TopoHR引入point-to-instance层级中线表征,提升拓扑推理的几何精度。
- 用中国科举体系评估LLM的专业级历史推理 — ACL:超出基础知识广度,考查史料考据、长时段推理这类专业能力。
- CT报告生成传统metric太粗 — ACL的CT-FineBench按疾病属性做细粒度评测,让"报告整体相似"不再混淆诊断保真度。
Don't miss what's next. Subscribe to AI论文简报: