微调即加速1.7倍，token崩的不是channel


            
        April 10, 2026
    
    
微调即加速1.7倍，token崩的不是channel


纯微调就能让LLM一步吐多个token， MARS不改架构不加参数，Qwen2.5-7B实测加速1.71倍，部署迁移成本几乎为零


图像自编码器压缩崩了别急着加channel——TC-AE发现真正塌缩的是token利用率，从token空间入手反而更简单有效


World model的空间一致性和实时性终于不用二选一。 INSPATIO-WORLD把两件事拆成独立模块，单视频输入即可生成可实时导航的4D场景


RL对齐扩散模型的rollout太贵？ 探索阶段用FP4、训练阶段用BF16，收敛速度最高提升4.64倍，质量不降


也值得关注

文字、布局、编辑指令全部变成视觉prompt — FlowInOne把多模态生成统一为image-in image-out的flow matching，文本不再是必须的控制入口。
运动控制和相机视角终于解耦了 — NVIDIA的MoRight让用户指定物体动作时不再连带影响相机运动，且运动能触发物理合理的连锁反应。
Reward model benchmark的盲区：个人偏好 — Personalized RewardBench发现现有评测只测通用质量，不测能否区分不同用户的个性化偏好。
高分辨率图像不用全部精细处理 — Q-Zoom让MLLM根据查询内容自适应决定哪些视觉区域需要精细感知，避免注意力被无关token淹没。
Test-time training的灾难性遗忘有解了 — 弹性权重巩固思路稳定长序列3D重建中的推理时更新，避免新观测覆盖旧记忆。
百万token的KV缓存该压谁？ — StructKV保留结构骨架而非高注意力分数的token，长上下文推理的压缩策略需要重新想。
MoE专家权重压到1-bit — MoBiE在极端二值化的同时处理专家间冗余，为MoE模型部署开辟新的压缩空间。
推理链断在哪一步？ — Step Saliency定位长推理链中的断裂点，发现错误往往不在最终输出而在中间环节。
RAG上线后用户会纠正错误，但评测不管 — 现有RAG benchmark完全是静态的，不考虑系统能否从部署中的用户反馈中持续学习。
预训练合成数据该跨文档融合了 — WRAP++从单文档改写升级到跨文档融合，让模型在预训练阶段就接触跨源推理模式。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)