Latent推理靠的不是推理
- Latent推理的性能提升来自副作用而非推理本身,因果中介分析显示latent token与输入输出之间存在因果断裂,用文本做显式想象的简单方案反而更优
- Deep research agent砍掉七成推理步骤反而更准:并行证据采集替代串行推理链,搜索广度比推理深度更值得投入
- 教育心理学的"测试驱动纠错"被搬进多模态训练,诊断-强化循环让模型自动定位弱点并生成针对性数据。11个benchmark持续提升且不互相干扰
- 世界模型的"合格标准"有了框架但离落地还远——三重一致性(模态、空间、时间)提供了统一思考坐标系,184个HF upvotes更多反映社区焦虑
- Multi-agent错误传播有了即插即用的防火墙,推理时动态剪枝拦截错误信息流,不需要重训或改拓扑,平均提升6.3个百分点
也值得关注
- 路径规划Agent有了真实场景的benchmark — 百度出品,结合真实地图服务和多样出行场景,94个HF upvotes说明需求强烈。
- 记忆增强探索让LLM agent在陌生环境中不再束手无策 — 混合on/off-policy RL框架,ICLR接收。
- 全模态agent能力评估:视觉+音频+语言 — OmniGAIA benchmark显示目前模型在跨模态推理上差距明显。
- 医疗RL框架让模型输出自由文本诊断而非选择题 — 组合reward设计向临床实用迈进。
- token级稀疏注意力打破block粒度的稀疏上限 — 长上下文推理延迟有望进一步降低。
- 把扩散模型去噪建模为路径规划问题 — 免训练的缓存加速方案DPCache,CVPR接收。
- 不需要caption就能做成员推断攻击 — 用模型自身的embedding分布检测训练数据记忆,ICLR接收。
- RL rollout加second-order结构提升数据利用效率 — 让回答之间产生依赖,不只是多生成几个独立回答。
- GRPO的层次化改进:step级+group级同时优化 — 针对长序列agent任务,ICLR接收。
- 两台iPhone就能采集场景级4D人体动作数据 — embodied agent训练数据采集成本大幅降低。
- VLM推理短板可能源于训练数据的reporting bias — 人类描述图像时本能省略显而易见的信息,模型也学会了这种省略。
- 单次前向传播编辑内部表征来缓解幻觉 — 不需要参考模型或多轮推理,CVPR接收。
Don't miss what's next. Subscribe to AI论文简报: