dLLM跨架构蒸馏到0.6B


            
        May 1, 2026
    
    
dLLM跨架构蒸馏到0.6B


跨架构蒸馏把dLLM从8B压到0.6B：TIDE是首个teacher和student在架构、attention机制、tokenizer同时不同的dLLM蒸馏框架，HumanEval从32.3跳到48.78，8个benchmark平均增益1.53分。


agent训练数据合成正成为新基础设施层——ClawGym把13.5K人设驱动任务、模拟工作区、混合验证打包发布，HF 43 upvotes超过今日所有highlights。


Speculative decoding给RL rollout当无损加速原语，8B规模实测1.8倍吞吐，235B规模异步pipeline模拟2.5倍端到端加速，不动on-policy纯度。


异步去噪让动作和视频在同一diffusion里跑不同节奏。X-WAM在5800小时机器人数据上预训练，RoboCasa和RoboTwin 2.0成功率分别到79.2%、90.7%。


也值得关注

把长程agent轨迹存成图像由OCR召回 — 绕开text context budget，给百轮以上交互历史一条非text化的记忆通道。
AAAI实证质询一个流行假设：neuro-symbolic不会自动带来组合泛化 — 把grounding和compositionality拆开看，前者并不蕴含后者。
DiT特征缓存的forecast从手工公式换成可学线性预测器 — 激进跳步下不掉速，固定公式适配不了动态分布。
虚拟角色对话评测不止考记忆事实，还要考记忆的策略性使用 — StratMem-Bench把"记得住"和"会用"拆成两道题，对长会话产品有借鉴。
3D Gaussian Splatting交互困境从语义分解切入 — Semantic Foam统一空间与语义场景分解，给交互式图形应用补一块。
用因果基底约束VFM做单源域泛化 — 避开光照和co-occurrence两类典型混杂因子，detector从源域到目标域更稳。
弱监督动作切分用HOI感知的自适应网络消歧相似动作 — AdaAct不再用固定网络给每一帧打标签，按HOI上下文动态调参。
联邦域泛化Re-ID里语义锚定和风格多样化协同进化 — CO-EVO让两条原本独立的路线互相喂养，FedDG-ReID不再二选一。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)