T²PO稳多轮RL+视频缓存提速6倍


            
        May 7, 2026
    
    
T²PO稳多轮RL+视频缓存提速6倍


多轮agent RL崩溃的真凶可能不是credit assignment：T²PO用模型自身不确定性触发"thinking"和重采样，在WebShop/ALFWorld/Search QA上稳定性和表现都涨，ICML中稿。


factuality的瓶颈是元认知，不是知识量——立场文指出模型仍然不知道自己不知道，校准过的不确定性才是Agent可靠性栈的隐形控制层。


医疗agent上岗判分卡：PhysicianBench把100个真实会诊搬进商用EHR环境，平均27次工具调用，最强agent pass@1只有46%、开源最高19%。


视频生成cache的pixel级修复：MotionCache用帧差给每个pixel分配去噪步数，SkyReels-V2拿到6.28倍加速、MAGI-1只有1.64倍，迁移效果高度依赖底层模型。


如果attention本质上是动态参数MLP：WeightFormer把attention数学上重写成参数动态预测的MLP，线性化架构的设计目标从"逼近softmax"变成"怎么动态预测好参数"。


也值得关注

学生从自己真实学业里挑出80道agent解不出的题 —— bilingual benchmark，比研究员闭门设计的题更接近用户实际碰到的失败。
让模型数重复符号数到出错 —— 把"记忆模式 vs 真规则执行"的边界做成一个可量化的最小可靠性测试。
把agentic系统当token分配经济体来设计 —— 立场文重新框出四层经济结构，主张按token经济而不是文本生成评估agent。
2670万spatial proteomics patches + H&E + 临床三模态对比学习 —— Haiku在规模上是真做出来了，给空间生物学的多模态基模奠了一块底。
Brain MRI基模的SAE深层会feature collapse —— 作者用几何先验稳住SAE，给医学影像基础模型的可解释性补了一道工具。
游戏引擎合成数据的sim2real外观gap —— 再光追也跟真实图像有可见差距，作者给hybrid方案缩这道gap，做合成训练数据的可参考。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)