4B agent几千条轨迹追平闭源CUA
- PEFT不只是省钱微调,而是每个用户的持久状态:一篇framing式工作把小适配器重新定位成挂在万亿参数共享基座上的本地状态,沿三条scaling轴论证"百万个个人模型"的部署形态。
- RAG从文本越界到视频生成:LongLive-RAG把检索增强搬来治长视频的身份漂移,回头检索更早的可信片段做锚定,多个AR骨干上VBench-Long平均排名第一。
- 在线RL让开源web agent摆脱轨迹依赖:OpenWebRL只用0.4K初始化轨迹、2.2K开放式任务,就把4B模型训到能跟OpenAI、Gemini的闭源CUA掰手腕,承诺全开源。
- 多流并发是评测盲区:X-Stream首次专门测多流streaming理解,最强MLLM在并发流上只拿约50%,单流强不代表多流能用。
也值得关注
- 首个扎根韩语语境的web浏览agent benchmark — K-BrowseComp让GPT-5.5、DeepSeek-V4-Pro、GLM-5.1等前沿模型在母语者验证子集上同台,agent评测正走向语言/文化在地化。
- 测agent操作你自己的账号和本地数据库 — MCP-Persona用环境模拟评估agent在个人社交应用上的真实能力,补上通用信息检索类benchmark的盲区。
- 让VLM给视频生成模型当"老师" — 用测试时自适应优化纠正那些画得逼真却不守任务规则的视频生成模型的逻辑失败。
- 免训练的PRM替代 — 直接拿现成大模型当过程打分器做chunk级引导生成,省掉step-level标注和reward model训练。
- 靠纠正失真改进视觉token削减 — 缓解MLLM海量视觉token带来的二次复杂度显存与延迟瓶颈。
- 用新颖性信号给latent memory提供训练监督 — JAMEL把探索和记忆压缩联合学习,解决长轨迹下记忆训练缺可靠监督的问题。
- 生成物理一致、无碰撞的交互式3D桌面场景 — 面向通用机器人学习,处理密集物体层级和不规则affordance。
- 靠捕捉内在能量异常定位AI编辑伪造图 — 绕开传统方法依赖、而合成数据本就缺失的物理噪声线索。
- 统一蛋白质与小分子配体的协同设计 — 用内在测地耦合联合建模序列与三维结构的耦合模态。
- 初始噪声才是mode collapse被忽视的源头 — 从引导势后验里采样初始噪声来提升生成多样性,而非只在生成轨迹中途干预。
Don't miss what's next. Subscribe to AI论文简报: