token概率直接当reward，零样本达0.95相关性


            
        February 25, 2026
    
    
token概率直接当reward，零样本达0.95相关性


LLM内部构建kernel行为的"世界模型"来规划优化路径，MoE等复杂kernel上比进化搜索快14倍，把算子调优从随机试错变成有规划的探索


VLM的token概率直接提取reward信号：预训练模型的logits里编码了任务进展信息，130+真实机器人任务上zero-shot相关性达0.947


Agent记忆系统的评估体系存在结构性缺陷，benchmark饱和、指标与语义效用脱节、换backbone结论就变。对搭建agent系统的团队来说是一份避坑清单


扩散语言模型的逆蒸馏从连续域搬到离散域，解决了唯一性和梯度稳定两个新问题，实现4到64倍步数压缩


也值得关注

推理加速 扩散模型缓存加速的新思路：按频谱演化规律而非原始特征距离决定何时复用中间结果。 论文链接
图像生成 一步式文生图模型做图像编辑，关键是用低能量传输路径替代暴力向量运算。 论文链接
多模态 第一视角和第三视角之间建立物体级对应关系 — 用cycle-consistent mask实现视角不变表征。论文链接
评测 Google提出多模态个性化benchmark — 用模拟数字足迹测试VLM从用户历史推断偏好的能力。论文链接
Agent 通用LLM Agent的test-time scaling评测 — 更多推理时间在哪些场景有效、哪些场景纯粹浪费。论文链接
Agent Agent失败不是能力不够而是路径漂移 — 提出canonical path deviation作为可靠性的因果解释。论文链接
训练优化 深度RL训练不稳定的新解法 — 各向同性高斯表征在非平稳目标下有可证明的优势。论文链接
可解释性 MIT从计算复杂性角度回答为什么ReLU有效 — 比特模型下训练是NP完全的，实数模型下用ReLU则可行。论文链接
多模态 CLIP prompt tuning准确率上去了但置信度不可靠 — 两个正则项修复校准问题。论文链接
安全对齐 检测LLM训练数据的新范式：主动重建攻击 — 通过微调探针模型来判断数据是否被见过。论文链接

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)