token概率直接当reward,零样本达0.95相关性
- LLM内部构建kernel行为的"世界模型"来规划优化路径,MoE等复杂kernel上比进化搜索快14倍,把算子调优从随机试错变成有规划的探索
- VLM的token概率直接提取reward信号:预训练模型的logits里编码了任务进展信息,130+真实机器人任务上zero-shot相关性达0.947
- Agent记忆系统的评估体系存在结构性缺陷,benchmark饱和、指标与语义效用脱节、换backbone结论就变。对搭建agent系统的团队来说是一份避坑清单
- 扩散语言模型的逆蒸馏从连续域搬到离散域,解决了唯一性和梯度稳定两个新问题,实现4到64倍步数压缩
也值得关注
- 推理加速 扩散模型缓存加速的新思路:按频谱演化规律而非原始特征距离决定何时复用中间结果。 论文链接
- 图像生成 一步式文生图模型做图像编辑,关键是用低能量传输路径替代暴力向量运算。 论文链接
- 多模态 第一视角和第三视角之间建立物体级对应关系 — 用cycle-consistent mask实现视角不变表征。论文链接
- 评测 Google提出多模态个性化benchmark — 用模拟数字足迹测试VLM从用户历史推断偏好的能力。论文链接
- Agent 通用LLM Agent的test-time scaling评测 — 更多推理时间在哪些场景有效、哪些场景纯粹浪费。论文链接
- Agent Agent失败不是能力不够而是路径漂移 — 提出canonical path deviation作为可靠性的因果解释。论文链接
- 训练优化 深度RL训练不稳定的新解法 — 各向同性高斯表征在非平稳目标下有可证明的优势。论文链接
- 可解释性 MIT从计算复杂性角度回答为什么ReLU有效 — 比特模型下训练是NP完全的,实数模型下用ReLU则可行。论文链接
- 多模态 CLIP prompt tuning准确率上去了但置信度不可靠 — 两个正则项修复校准问题。论文链接
- 安全对齐 检测LLM训练数据的新范式:主动重建攻击 — 通过微调探针模型来判断数据是否被见过。论文链接
Don't miss what's next. Subscribe to AI论文简报: