去掉情绪词后probe准确率塌到5%


            
        April 28, 2026
    
    
去掉情绪词后probe准确率塌到5%


silicon panel在均值上可信、在方差上不可信——Stanford用277位职业哲学家做ground truth,七个开源闭源模型都能复刻聚合分布,但跨问题相关性被系统抬高、少数派和内部冲突被压扁;做对齐panel、合成调研,只要分析依赖"分歧形状"就拿不到真信号。


情绪探针在去关键词刺激上准确率从82%塌到5%。 MIT的AIPsy-Affect给了480条配对刺激、把emotion关键词全部移除,已发表的"情绪feature"在新基线下大半信号消失,后续做emotion probing/SAE/steering不上keyword-free对照等于直接打折。


元网络的对称约束被松了一档: quasi-equivariant放弃理论全对称,只在实际会出现的等价类上等变,前馈、卷积、transformer都验证可行,做weight editing、模型merging、超网络方向的团队该看看自己的对称设计是不是过度严格。


FinGround按原子事实回溯监管片段,幻觉率比最强baseline降68%,8B检测器保留91.4% F1、单query 0.003美元;EU AI Act 2026年8月节点把"减少幻觉"从产品风险升级成合规风险,法律、医疗任何"事实可追溯"的垂直都能照搬这个"verify-then-ground"分解。


也值得关注

RouteNLP把路由和蒸馏做成一个闭环 —— 大模型只服务真正需要的query,小模型用真实路由分布持续蒸馏,而不是把两步当成独立优化目标。原文
MTRouter把"历史对话"和"候选模型"联合embed到同一空间 —— 多轮场景的路由不再只看当前turn,多轮成本累加问题第一次被显式建模。原文
AgentEval把agent评测建成DAG,error propagation当显式信号传 —— 和最近MAS归因方向同源,但视角是single-agent内部的step链,不是跨agent的责任划分。原文
ComplianceNLP用knowledge graph增强RAG做合规gap检测 —— 监管条款之间的依赖关系用图结构显式建模,比纯向量检索更适合"制度间冲突"这类查询。原文
S2G-RAG把"什么时候停止检索"变成可学习的判断 —— 模型显式判定当前evidence是否充分、还缺哪类信息,多跳QA里iterative retrieval的停止条件第一次被结构化。原文
deductive/inductive/abductive三类逻辑推理在LLM内部的表示显著相关但不重合 —— 为针对性提升某一类推理能力提供了切入点,而不是把"逻辑推理"当成单一能力来训。原文

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)