NVIDIA五模态压进一套权重
- NVIDIA把语言、图像、视频、音频、动作塞进一套权重:Cosmos 3用一套mixture-of-transformers赌"单模型通吃所有模态",第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。
- 同一个KV量化方法,prefill里没事、长解码里越错越离谱:KVarN指出误差会跨时间步累积,用方差归一化压住离群token-scale,2-bit拿下KV量化新SOTA,免标定、有vLLM实现。
- 把上下文里临时学到的东西写回权重:"语言模型需要睡眠"撇开隐喻,机制是蒸馏加合成数据自演练;但"写什么"和"防遗忘"两个硬问题摘要没正面回答。
- 采样预算从手调阈值变成可学习策略:把"采多少样"形式化成MDP,用RL训一个CPU上就能跑的小控制器,在"少采样还不掉点"上比强基线拿到更好折中。
也值得关注
- 和KVarN同日的另一条KV-cache路线:不量化而是驱逐 — 发现少数value state量级异常大、不能轻易丢,反向印证了离群token-scale是长推理的共同痛点。
- NVIDIA OmniDreams用实时生成式世界模型做自动驾驶闭环仿真 — 专攻重建式仿真器够不着的长尾场景。
- 世界模型与MLLM互补,与其问谁更强不如学会取舍 — 判断某个视觉rollout何时可信、何时该弃用。
- OVO-S-Bench从连续第一视角流里做在线空间推理 — 分层基准,常需用到当前视野之外的证据。
- VSTAT把视频理解的考点从"认出孤立瞬间"挪到"持续追踪实体与状态" — 直戳MLLM的薄弱环节。
- 用宽基线匹配当空间推理的测试床 — 按视角位移和匹配粒度分层,逼MLLM处理几何与遮挡。
- PaddleOCR-VL-1.6不盲目扩数据,而是定位上一代的薄弱区域精修 — 做region-aware refinement。
- Economy of Minds借哈耶克的去中心化协调让agent靠竞价自组织 — 不靠中心控制涌现出更强的集体智能。
- AUDITFLOW给财报审计搭可执行的符号环境 — 让agent把事实链到分类概念、重算预期值再判定。
- SynCred-Bench:AI已能生成带逼真文字和版式的图,催生"合成可信度"威胁 — 一种新型视觉误导。
Don't miss what's next. Subscribe to AI论文简报: