微调即加速1.7倍,token崩的不是channel
- 纯微调就能让LLM一步吐多个token, MARS不改架构不加参数,Qwen2.5-7B实测加速1.71倍,部署迁移成本几乎为零
- 图像自编码器压缩崩了别急着加channel——TC-AE发现真正塌缩的是token利用率,从token空间入手反而更简单有效
- World model的空间一致性和实时性终于不用二选一。 INSPATIO-WORLD把两件事拆成独立模块,单视频输入即可生成可实时导航的4D场景
- RL对齐扩散模型的rollout太贵? 探索阶段用FP4、训练阶段用BF16,收敛速度最高提升4.64倍,质量不降
也值得关注
- 文字、布局、编辑指令全部变成视觉prompt — FlowInOne把多模态生成统一为image-in image-out的flow matching,文本不再是必须的控制入口。
- 运动控制和相机视角终于解耦了 — NVIDIA的MoRight让用户指定物体动作时不再连带影响相机运动,且运动能触发物理合理的连锁反应。
- Reward model benchmark的盲区:个人偏好 — Personalized RewardBench发现现有评测只测通用质量,不测能否区分不同用户的个性化偏好。
- 高分辨率图像不用全部精细处理 — Q-Zoom让MLLM根据查询内容自适应决定哪些视觉区域需要精细感知,避免注意力被无关token淹没。
- Test-time training的灾难性遗忘有解了 — 弹性权重巩固思路稳定长序列3D重建中的推理时更新,避免新观测覆盖旧记忆。
- 百万token的KV缓存该压谁? — StructKV保留结构骨架而非高注意力分数的token,长上下文推理的压缩策略需要重新想。
- MoE专家权重压到1-bit — MoBiE在极端二值化的同时处理专家间冗余,为MoE模型部署开辟新的压缩空间。
- 推理链断在哪一步? — Step Saliency定位长推理链中的断裂点,发现错误往往不在最终输出而在中间环节。
- RAG上线后用户会纠正错误,但评测不管 — 现有RAG benchmark完全是静态的,不考虑系统能否从部署中的用户反馈中持续学习。
- 预训练合成数据该跨文档融合了 — WRAP++从单文档改写升级到跨文档融合,让模型在预训练阶段就接触跨源推理模式。
Don't miss what's next. Subscribe to AI论文简报: