打乱音视频练推理，6B模型超GPT-4o


            
        April 11, 2026
    
    
打乱音视频练推理，6B模型超GPT-4o


Agent技能应该从用户群体中自进化：SkillClaw把多用户交互轨迹变成skill进化信号，一个人的修正自动同步全员，给Agent系统装上组织记忆


小模型压缩比大模型硬看更聪明，Tempo用6B模型根据问题动态筛选关键帧，8K token预算下超过GPT-4o和Gemini 1.5 Pro


灯光在视频生成中成为独立可控要素。LiVER通过物理渲染器解耦光照、布局与运镜，CVPR接收，瞄准专业影视制作流程


打乱音视频让模型自己拼回去，跨模态推理就提升了——OmniJigsaw用零标注的时序重排代理任务迫使模型整合视听信号，15个benchmark验证有效


也值得关注

170K风格描述+400K提示词构建规模化数据流水线 — 用生成模型自身的风格一致性解决风格迁移的数据瓶颈。
RLVR提了准确率但推理链反而变差 — CoT与视觉证据脱钩，答案对了不代表推理过程靠谱。
虚拟试穿开始关心衣服合不合身 — 首个带精确尺码标注的试穿数据集，不只看贴上去好不好看。
梯度信号驱动的自适应层采样 — 用一半显存实现接近全参数微调的效果（ACL）。
能力越强的LLM在零成本协作下反而越不愿合作 — 多Agent系统的合作失败是个值得重视的隐患（ICLR）。
Agent奖励模型不能只看单步决策 — 需要评估整条规划轨迹的质量（ACL）。
无需标注的医学视觉推理 — Agentic RL让模型自主定位视觉证据再做判断（ICLR）。
搜索Agent的训练数据不是越多越好 — 分层经验框架从随机探索中筛出高价值轨迹。
用宝可梦3D环境测VLM长时序交互 — 比静态图文benchmark更接近Agent部署场景。
持续编辑VLM知识而不遗忘旧概念 — 动态子空间对齐方法（CVPR）。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)