去掉情绪词后probe准确率塌到5%
- silicon panel在均值上可信、在方差上不可信——Stanford用277位职业哲学家做ground truth,七个开源闭源模型都能复刻聚合分布,但跨问题相关性被系统抬高、少数派和内部冲突被压扁;做对齐panel、合成调研,只要分析依赖"分歧形状"就拿不到真信号。
- 情绪探针在去关键词刺激上准确率从82%塌到5%。 MIT的AIPsy-Affect给了480条配对刺激、把emotion关键词全部移除,已发表的"情绪feature"在新基线下大半信号消失,后续做emotion probing/SAE/steering不上keyword-free对照等于直接打折。
- 元网络的对称约束被松了一档: quasi-equivariant放弃理论全对称,只在实际会出现的等价类上等变,前馈、卷积、transformer都验证可行,做weight editing、模型merging、超网络方向的团队该看看自己的对称设计是不是过度严格。
- FinGround按原子事实回溯监管片段,幻觉率比最强baseline降68%,8B检测器保留91.4% F1、单query 0.003美元;EU AI Act 2026年8月节点把"减少幻觉"从产品风险升级成合规风险,法律、医疗任何"事实可追溯"的垂直都能照搬这个"verify-then-ground"分解。
也值得关注
- RouteNLP把路由和蒸馏做成一个闭环 —— 大模型只服务真正需要的query,小模型用真实路由分布持续蒸馏,而不是把两步当成独立优化目标。原文
- MTRouter把"历史对话"和"候选模型"联合embed到同一空间 —— 多轮场景的路由不再只看当前turn,多轮成本累加问题第一次被显式建模。原文
- AgentEval把agent评测建成DAG,error propagation当显式信号传 —— 和最近MAS归因方向同源,但视角是single-agent内部的step链,不是跨agent的责任划分。原文
- ComplianceNLP用knowledge graph增强RAG做合规gap检测 —— 监管条款之间的依赖关系用图结构显式建模,比纯向量检索更适合"制度间冲突"这类查询。原文
- S2G-RAG把"什么时候停止检索"变成可学习的判断 —— 模型显式判定当前evidence是否充分、还缺哪类信息,多跳QA里iterative retrieval的停止条件第一次被结构化。原文
- deductive/inductive/abductive三类逻辑推理在LLM内部的表示显著相关但不重合 —— 为针对性提升某一类推理能力提供了切入点,而不是把"逻辑推理"当成单一能力来训。原文
Don't miss what's next. Subscribe to AI论文简报: