Arbor科研增益2.5倍,50环境抵300个
- Arbor 让 agent 自己跑完整科研循环,靠一棵 Hypothesis Tree 把经验跨轮累积,六个真实研究任务全拿最佳,平均相对增益是 Codex 和 Claude Code 的 2.5 倍以上。
- 环境正在变成新的扩展轴:RACES 把可验证环境当乐高积木递归组合,50 个基础环境拼出约等于 300 个独立环境的训练效果。
- InternVideo3 把 agentic 那套搬进长视频——观察、推理、工具、记忆共享一个演化上下文,长视频理解变成"积累证据、再验证"的闭环。
- MTP 接受率下滑的根因是 RL 中熵上升,Bebop 用 rejection sampling 配 TV loss 把接受率最高提到 95%、端到端加速 1.8 倍。
- 训 SAE 之前先用更轻的镜头:ICA Lens 不训任何字典就从激活几何里抽出可读方向,在 SAEBench 上与公开 SAE 打平。
也值得关注
- 预训练视频生成器不靠文本就能规划决策 — World Model Self-Distillation 让模型自蒸馏出任务求解能力,绕开对详细文本描述的依赖。
- 扩散语言模型的后训练别再用纯随机 mask — 注意力引导的去噪能利用 token 间的内在依赖,比随机掩码更对路。
- VLA 模型对指令语言的变化并不鲁棒 — 首个多语言系统评测,发现语言敏感性会在分步执行中逐步暴露。
- LLM 当裁判评科学新颖性有天花板 — 这篇退一步,只评更干净的上游对象:研究问题本身。
- 多模态 ICL 卡在上下文窗口和 KV cache 成本 — 任务感知的结构化记忆给出动态压缩思路。
- 多轮对话每轮都背着不断膨胀的历史 — 增量压缩配跨轮记忆共享,比朴素截断或摘要更保真。
- 多模态交互里的冗余/独有/协同信息会随样本变化 — 信息论分解第一次把这种动态拆开。
- VLM 仍抓不住世界的动态 — NVIDIA 的 4DP-QA 把 4D 感知做成可扩展 QA 来量化这块短板。
- 怎么造出能"负责任地拒绝"的自主智能体 — Google 指出机器的非合规其实有很多种形态。
- 给语言模型的创造力一套可扩展度量 — 跨开放式任务自动评测,系统衡量"创意潜力"。
Don't miss what's next. Subscribe to AI论文简报: