Arbor科研增益2.5倍，50环境抵300个


            
        June 12, 2026
    
    
Arbor科研增益2.5倍，50环境抵300个


Arbor 让 agent 自己跑完整科研循环，靠一棵 Hypothesis Tree 把经验跨轮累积，六个真实研究任务全拿最佳，平均相对增益是 Codex 和 Claude Code 的 2.5 倍以上。


环境正在变成新的扩展轴：RACES 把可验证环境当乐高积木递归组合，50 个基础环境拼出约等于 300 个独立环境的训练效果。


InternVideo3 把 agentic 那套搬进长视频——观察、推理、工具、记忆共享一个演化上下文，长视频理解变成"积累证据、再验证"的闭环。


MTP 接受率下滑的根因是 RL 中熵上升，Bebop 用 rejection sampling 配 TV loss 把接受率最高提到 95%、端到端加速 1.8 倍。


训 SAE 之前先用更轻的镜头：ICA Lens 不训任何字典就从激活几何里抽出可读方向，在 SAEBench 上与公开 SAE 打平。


也值得关注

预训练视频生成器不靠文本就能规划决策 — World Model Self-Distillation 让模型自蒸馏出任务求解能力，绕开对详细文本描述的依赖。
扩散语言模型的后训练别再用纯随机 mask — 注意力引导的去噪能利用 token 间的内在依赖，比随机掩码更对路。
VLA 模型对指令语言的变化并不鲁棒 — 首个多语言系统评测，发现语言敏感性会在分步执行中逐步暴露。
LLM 当裁判评科学新颖性有天花板 — 这篇退一步，只评更干净的上游对象：研究问题本身。
多模态 ICL 卡在上下文窗口和 KV cache 成本 — 任务感知的结构化记忆给出动态压缩思路。
多轮对话每轮都背着不断膨胀的历史 — 增量压缩配跨轮记忆共享，比朴素截断或摘要更保真。
多模态交互里的冗余/独有/协同信息会随样本变化 — 信息论分解第一次把这种动态拆开。
VLM 仍抓不住世界的动态 — NVIDIA 的 4DP-QA 把 4D 感知做成可扩展 QA 来量化这块短板。
怎么造出能"负责任地拒绝"的自主智能体 — Google 指出机器的非合规其实有很多种形态。
给语言模型的创造力一套可扩展度量 — 跨开放式任务自动评测，系统衡量"创意潜力"。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)