PRM标注成本降两个数量级，dLLM幻觉错法不同


            
        April 14, 2026
    
    
PRM标注成本降两个数量级，dLLM幻觉错法不同


dLLM的幻觉模式跟自回归完全不同，首个受控对比实验识别出三种特有故障模式（过早终止、去噪不完全、上下文侵入），现有检测工具需要针对性重新设计


对比互信息让过程奖励标注成本降两个数量级：直接从模型内部概率提取步骤级信号，不需要反复采样rollout。ACL接收


RAG知识库防御从静态规则升级为运行时博弈。借鉴栈金丝雀概念嵌入canary token做持续检测，即插即用不改现有架构


TorchUMM把主流多模态模型统一到一个代码库，覆盖理解、生成、编辑三维度，让不同架构第一次能做同条件横向比较


也值得关注

用层次化类比推理替代规则匹配做内容审核 — 处理模糊边界案例时，类比比硬规则更灵活。
Chain-of-Analogy对抗审核中的决策捷径 — 与上文CHAIRO同组，用DPO强化类比推理质量。
去掉纹理只留骨架线条，测VLM几何理解 — 检验模型是真懂空间结构还是在读纹理线索。
法律咨询场景的multi-agent结构化推理框架 — 附带大规模中文法律QA数据集。
250万空间对齐样本的遥感多模态数据集 — 语义监督做地理基础模型预训练。
LLM代码摘要越来越长，评估方法跟不上 — 无参考的细粒度事实一致性评估方案。
教导航Agent判断目标不存在 — 处理虚假前提指令，而不是盲目搜索到超时。
低光人体姿态估计的无监督域适应 — 不需要暗光场景的标注数据。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)