T²PO稳多轮RL+视频缓存提速6倍
- 多轮agent RL崩溃的真凶可能不是credit assignment:T²PO用模型自身不确定性触发"thinking"和重采样,在WebShop/ALFWorld/Search QA上稳定性和表现都涨,ICML中稿。
- factuality的瓶颈是元认知,不是知识量——立场文指出模型仍然不知道自己不知道,校准过的不确定性才是Agent可靠性栈的隐形控制层。
- 医疗agent上岗判分卡:PhysicianBench把100个真实会诊搬进商用EHR环境,平均27次工具调用,最强agent pass@1只有46%、开源最高19%。
- 视频生成cache的pixel级修复:MotionCache用帧差给每个pixel分配去噪步数,SkyReels-V2拿到6.28倍加速、MAGI-1只有1.64倍,迁移效果高度依赖底层模型。
- 如果attention本质上是动态参数MLP:WeightFormer把attention数学上重写成参数动态预测的MLP,线性化架构的设计目标从"逼近softmax"变成"怎么动态预测好参数"。
也值得关注
- 学生从自己真实学业里挑出80道agent解不出的题 —— bilingual benchmark,比研究员闭门设计的题更接近用户实际碰到的失败。
- 让模型数重复符号数到出错 —— 把"记忆模式 vs 真规则执行"的边界做成一个可量化的最小可靠性测试。
- 把agentic系统当token分配经济体来设计 —— 立场文重新框出四层经济结构,主张按token经济而不是文本生成评估agent。
- 2670万spatial proteomics patches + H&E + 临床三模态对比学习 —— Haiku在规模上是真做出来了,给空间生物学的多模态基模奠了一块底。
- Brain MRI基模的SAE深层会feature collapse —— 作者用几何先验稳住SAE,给医学影像基础模型的可解释性补了一道工具。
- 游戏引擎合成数据的sim2real外观gap —— 再光追也跟真实图像有可见差距,作者给hybrid方案缩这道gap,做合成训练数据的可参考。
Don't miss what's next. Subscribe to AI论文简报: