Latent推理靠的不是推理


            
        February 28, 2026
    
    
Latent推理靠的不是推理


Latent推理的性能提升来自副作用而非推理本身，因果中介分析显示latent token与输入输出之间存在因果断裂，用文本做显式想象的简单方案反而更优


Deep research agent砍掉七成推理步骤反而更准：并行证据采集替代串行推理链，搜索广度比推理深度更值得投入


教育心理学的"测试驱动纠错"被搬进多模态训练，诊断-强化循环让模型自动定位弱点并生成针对性数据。11个benchmark持续提升且不互相干扰


世界模型的"合格标准"有了框架但离落地还远——三重一致性（模态、空间、时间）提供了统一思考坐标系，184个HF upvotes更多反映社区焦虑


Multi-agent错误传播有了即插即用的防火墙，推理时动态剪枝拦截错误信息流，不需要重训或改拓扑，平均提升6.3个百分点


也值得关注

路径规划Agent有了真实场景的benchmark — 百度出品，结合真实地图服务和多样出行场景，94个HF upvotes说明需求强烈。
记忆增强探索让LLM agent在陌生环境中不再束手无策 — 混合on/off-policy RL框架，ICLR接收。
全模态agent能力评估：视觉+音频+语言 — OmniGAIA benchmark显示目前模型在跨模态推理上差距明显。
医疗RL框架让模型输出自由文本诊断而非选择题 — 组合reward设计向临床实用迈进。
token级稀疏注意力打破block粒度的稀疏上限 — 长上下文推理延迟有望进一步降低。
把扩散模型去噪建模为路径规划问题 — 免训练的缓存加速方案DPCache，CVPR接收。
不需要caption就能做成员推断攻击 — 用模型自身的embedding分布检测训练数据记忆，ICLR接收。
RL rollout加second-order结构提升数据利用效率 — 让回答之间产生依赖，不只是多生成几个独立回答。
GRPO的层次化改进：step级+group级同时优化 — 针对长序列agent任务，ICLR接收。
两台iPhone就能采集场景级4D人体动作数据 — embodied agent训练数据采集成本大幅降低。
VLM推理短板可能源于训练数据的reporting bias — 人类描述图像时本能省略显而易见的信息，模型也学会了这种省略。
单次前向传播编辑内部表征来缓解幻觉 — 不需要参考模型或多轮推理，CVPR接收。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)