打乱音视频练推理,6B模型超GPT-4o
- Agent技能应该从用户群体中自进化:SkillClaw把多用户交互轨迹变成skill进化信号,一个人的修正自动同步全员,给Agent系统装上组织记忆
- 小模型压缩比大模型硬看更聪明,Tempo用6B模型根据问题动态筛选关键帧,8K token预算下超过GPT-4o和Gemini 1.5 Pro
- 灯光在视频生成中成为独立可控要素。LiVER通过物理渲染器解耦光照、布局与运镜,CVPR接收,瞄准专业影视制作流程
- 打乱音视频让模型自己拼回去,跨模态推理就提升了——OmniJigsaw用零标注的时序重排代理任务迫使模型整合视听信号,15个benchmark验证有效
也值得关注
- 170K风格描述+400K提示词构建规模化数据流水线 — 用生成模型自身的风格一致性解决风格迁移的数据瓶颈。
- RLVR提了准确率但推理链反而变差 — CoT与视觉证据脱钩,答案对了不代表推理过程靠谱。
- 虚拟试穿开始关心衣服合不合身 — 首个带精确尺码标注的试穿数据集,不只看贴上去好不好看。
- 梯度信号驱动的自适应层采样 — 用一半显存实现接近全参数微调的效果(ACL)。
- 能力越强的LLM在零成本协作下反而越不愿合作 — 多Agent系统的合作失败是个值得重视的隐患(ICLR)。
- Agent奖励模型不能只看单步决策 — 需要评估整条规划轨迹的质量(ACL)。
- 无需标注的医学视觉推理 — Agentic RL让模型自主定位视觉证据再做判断(ICLR)。
- 搜索Agent的训练数据不是越多越好 — 分层经验框架从随机探索中筛出高价值轨迹。
- 用宝可梦3D环境测VLM长时序交互 — 比静态图文benchmark更接近Agent部署场景。
- 持续编辑VLM知识而不遗忘旧概念 — 动态子空间对齐方法(CVPR)。
Don't miss what's next. Subscribe to AI论文简报: