几何冲突让持续微调可预判


            
        May 12, 2026
    
    
几何冲突让持续微调可预判


几何冲突判据预判持续微调遗忘：把任务的参数更新协方差几何当作可测信号，GCWM在Qwen3 0.6B-14B、domain和capability两种continual场景下都稳定优于data-free baseline。


full-cache不再是KV eviction的天花板——长上下文里无关token会稀释attention，可学习的全局预算eviction反而能超过full-cache，KV cache该被重新定位为"信号筛选"。


MLLM在生产环境被糊图打回原形：直接把退化样本扔进RL rollout会"奖励中毒"，ROMA用双forward pass配合teacher forcing把视觉退化做成训练侧补救。


Apple Silicon侧LLM kernel调优有了评估底座：Metal-Sci把10个科学计算任务、CPU baseline、roofline fitness和进化式搜索harness一起打包，并用留出尺寸抓搜索集上的silent regression。


也值得关注

多模态 reward 把"先规划再验证"流程化 — DeltaRubric用planning+verification解决单步评估器在视觉细节上的lazy judging。
跨语言自蒸馏绕开翻译数据 — 直接用模型自身在高资源语言上的推理轨迹去训低资源语言，质量比翻译数据更可控。
VLM web agent 抗欺骗第一次进训练目标 — 之前都是事后检测，这篇把抵抗欺骗性界面元素前移到训练阶段。
工业 QA 场景下 RAG vs fine-tuning 实测对比 — 给企业选型/采购决策一份成本-效果参考数据。
按 token 熵动态决定何时分支搜索 — 比固定 beam/best-of-n 更接近信息论意义上合理的切分点。
并行 masked diffusion LM 用编辑式 refinement 修 joint sampling drift — 给这条并行生成路线补一道精修工序。
Rectified Flow 偏好优化要带 noise 轨迹配对 — 只存 final winner/loser 不够，否则中间生成过程的偏好信号丢失。
Instruction tuning 数据选择走向 task-model 联合自适应权重 — 多维启发式从静态走到动态，选择函数本身比数据量更值得建模。
进化式 coding agent 自动生成 3D 训练环境 — SimWorld Studio给embodied agent补齐web/coding sandbox那侧的训练地。
立场性 paper：自然语言作为 LLM 默认介质已不够用 — 主张更结构化的schema表征作为下一道"语言"。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)