几何冲突让持续微调可预判
- 几何冲突判据预判持续微调遗忘:把任务的参数更新协方差几何当作可测信号,GCWM在Qwen3 0.6B-14B、domain和capability两种continual场景下都稳定优于data-free baseline。
- full-cache不再是KV eviction的天花板——长上下文里无关token会稀释attention,可学习的全局预算eviction反而能超过full-cache,KV cache该被重新定位为"信号筛选"。
- MLLM在生产环境被糊图打回原形:直接把退化样本扔进RL rollout会"奖励中毒",ROMA用双forward pass配合teacher forcing把视觉退化做成训练侧补救。
- Apple Silicon侧LLM kernel调优有了评估底座:Metal-Sci把10个科学计算任务、CPU baseline、roofline fitness和进化式搜索harness一起打包,并用留出尺寸抓搜索集上的silent regression。
也值得关注
- 多模态 reward 把"先规划再验证"流程化 — DeltaRubric用planning+verification解决单步评估器在视觉细节上的lazy judging。
- 跨语言自蒸馏绕开翻译数据 — 直接用模型自身在高资源语言上的推理轨迹去训低资源语言,质量比翻译数据更可控。
- VLM web agent 抗欺骗第一次进训练目标 — 之前都是事后检测,这篇把抵抗欺骗性界面元素前移到训练阶段。
- 工业 QA 场景下 RAG vs fine-tuning 实测对比 — 给企业选型/采购决策一份成本-效果参考数据。
- 按 token 熵动态决定何时分支搜索 — 比固定 beam/best-of-n 更接近信息论意义上合理的切分点。
- 并行 masked diffusion LM 用编辑式 refinement 修 joint sampling drift — 给这条并行生成路线补一道精修工序。
- Rectified Flow 偏好优化要带 noise 轨迹配对 — 只存 final winner/loser 不够,否则中间生成过程的偏好信号丢失。
- Instruction tuning 数据选择走向 task-model 联合自适应权重 — 多维启发式从静态走到动态,选择函数本身比数据量更值得建模。
- 进化式 coding agent 自动生成 3D 训练环境 — SimWorld Studio给embodied agent补齐web/coding sandbox那侧的训练地。
- 立场性 paper:自然语言作为 LLM 默认介质已不够用 — 主张更结构化的schema表征作为下一道"语言"。
Don't miss what's next. Subscribe to AI论文简报: