大模型更抗谣言却更易被噪声带跑


            
        April 16, 2026
    
    
大模型更抗谣言却更易被噪声带跑


Agent失败可以拆成两类可测的错误：死磕一条路（exploit过强）和漫无方向（explore过度）能用黑盒指标分开度量，不需要访问模型内部策略，frontier模型失败模式差异明显


scaling把"看context"拆成两种反向变化的子能力。 Google在两个模型家族上给出首个contextual entrainment的scaling law：大模型抵抗反事实谣言的能力是小模型4倍，被无关token带跑的概率反而是2倍


剪枝只优化单一目标会错过更优解：Google MOONSHOT把post-training one-shot pruning当多目标优化，作为wrapper套在现有剪枝器上，Llama-3.2在2:4稀疏下C4 perplexity最多降32.6%


也值得关注

Microsoft给web agent的skill加上视频grounding — 纯文本workflow描述留下太多执行歧义，视觉示范把skill锚在UI元素上。WebXSkill
HETA用Hessian二阶信息修正token attribution — 现有方法大多用线性近似，对自回归LLM的因果链捕捉不准，ICLR收录。HETA
程序化生成无边界科学推理题目 — 现有benchmark常继承论文已知结论偏差，InfiniteScienceGym绕开发表偏差与标注噪声。InfiniteScienceGym
用LLM给医学知识图谱补文本属性 — 医学概念表征长期受限于代码噪声和稀疏样本，显著改善临床预测的下游质量。
MIT给t-SNE的信息损失建立数学框架 — 哪些结构必然丢失、哪些能保留，第一次有理论刻度。Some Theoretical Limitations of t-SNE
SSD-GS补上3DGS重打光的材质-光照交互 — 想做物理级重打光就得把散射和阴影拆分建模。SSD-GS

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)