MoE安全集中在少数专家、独占批提速42%


            
        June 2, 2026
    
    
MoE安全集中在少数专家、独占批提速42%


实验室VLM分数和机器人部署可靠性之间存在系统性落差：RoboStressBench按物理渲染拆出材质/光照/视角/几何四类压力，发现总体准确率会掩盖模型在具体环节的失灵。


MoE省下的算力可能是从安全护栏里抠出来的——安全能力高度集中在少数专家身上，路由一旦绕开它们，护栏就形同虚设。


参数级知识编辑有理论天花板：直接改权重打知识补丁在贴近真实的条件下会稳定损伤核心能力，简单的检索式基线反而全程更稳。


混合批处理不总是最优，最优分界线跟显存带宽强相关：在带宽受限的便宜卡上，独占批吞吐最高能多挤出41.9%。


模型认出"自己写的"，靠的是一个固定参照系：Anthropic发现模型评判任何persona的文本时，都统一拿assistant当锚点做隐式贝叶斯似然比检验。


也值得关注

用多模态大模型给长视频做流式实时解说 — FlowNar针对的是在线场景下资源消耗随视频时长线性膨胀的扩展性瓶颈。
用生成式扩散先验从弱引力透镜观测里重建暗物质的三维分布 — 单视角、强病态的逆问题，传统重建难收敛，这里靠生成先验来约束解空间。
把生物医学论文里散落在图、表、图注和正文之间的证据富集起来合成训练数据 — Ryze用这套方式绕开昂贵的专家标注，提升VLM在生物医学问答上的可靠性。
用近乎免费的二阶攻击缓解快速对抗训练里的"灾难性过拟合" — SORA让单步对抗训练既省算力又不塌方。
LLM做零样本标注和judge时，模型自带的先验会和你给的指令较劲 — 这篇拆解了先验在什么情况下会压过指令，直接关乎LLM-as-judge的可靠性。
靠聚类引导精修加多模型投票，稳住遥感图像的视觉定位 — 破解小目标和大尺度变化下单模型定位不靠谱的老问题。
反直觉的迁移学习：源域不必语义清晰，试着从"噪声域"里迁移知识 — 半监督设定下的噪声域适配。
在线链接推荐是performative的——推什么会改变后续形成什么链接 — 导致用历史日志算出的公平性在部署后漂移，COPF想把这个稳住。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)