NVIDIA五模态压进一套权重


            
        June 5, 2026
    
    
NVIDIA五模态压进一套权重


NVIDIA把语言、图像、视频、音频、动作塞进一套权重：Cosmos 3用一套mixture-of-transformers赌"单模型通吃所有模态"，第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。


同一个KV量化方法，prefill里没事、长解码里越错越离谱：KVarN指出误差会跨时间步累积，用方差归一化压住离群token-scale，2-bit拿下KV量化新SOTA，免标定、有vLLM实现。


把上下文里临时学到的东西写回权重："语言模型需要睡眠"撇开隐喻，机制是蒸馏加合成数据自演练；但"写什么"和"防遗忘"两个硬问题摘要没正面回答。


采样预算从手调阈值变成可学习策略：把"采多少样"形式化成MDP，用RL训一个CPU上就能跑的小控制器，在"少采样还不掉点"上比强基线拿到更好折中。


也值得关注

和KVarN同日的另一条KV-cache路线：不量化而是驱逐 — 发现少数value state量级异常大、不能轻易丢，反向印证了离群token-scale是长推理的共同痛点。
NVIDIA OmniDreams用实时生成式世界模型做自动驾驶闭环仿真 — 专攻重建式仿真器够不着的长尾场景。
世界模型与MLLM互补，与其问谁更强不如学会取舍 — 判断某个视觉rollout何时可信、何时该弃用。
OVO-S-Bench从连续第一视角流里做在线空间推理 — 分层基准，常需用到当前视野之外的证据。
VSTAT把视频理解的考点从"认出孤立瞬间"挪到"持续追踪实体与状态" — 直戳MLLM的薄弱环节。
用宽基线匹配当空间推理的测试床 — 按视角位移和匹配粒度分层，逼MLLM处理几何与遮挡。
PaddleOCR-VL-1.6不盲目扩数据，而是定位上一代的薄弱区域精修 — 做region-aware refinement。
Economy of Minds借哈耶克的去中心化协调让agent靠竞价自组织 — 不靠中心控制涌现出更强的集体智能。
AUDITFLOW给财报审计搭可执行的符号环境 — 让agent把事实链到分类概念、重算预期值再判定。
SynCred-Bench：AI已能生成带逼真文字和版式的图，催生"合成可信度"威胁 — 一种新型视觉误导。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)