400万游戏帧练渲染,技能内化胜过检索
- 离散token是LLM的架构天花板而非优化目标,综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。
- Agent技能用RL内化进参数比检索注入更强:SKILL0的渐进撤除课程在ALFWorld上提升9.7%,推理时每步上下文不到500 token。
- 3A游戏引擎是生成式渲染被忽视的数据金矿——400万帧同步RGB+G-buffer数据,微调后的模型在跨数据集泛化上明显领先。
- 视觉特征可以用文本提示实时转向。在ViT编码层内注入交叉注意力,异常检测等任务零样本泛化,通用能力不退化。
也值得关注
- 在latent空间做跨模态交叉推理 — 避免把视觉内容翻译成文本的信息损失。LatentUM
- 多个LLM agent自主探索、反思、协作解决开放性问题 — 不再依赖硬编码的搜索规则。CORAL
- 用近似身份干扰项消除视觉编码器对背景依赖 — 让身份表征真正聚焦于对象本身。NearID
- 视频擦除不只是填补空白 — 当被移除对象有物理交互时,需要重新推理整个场景的因果链。VOID
- 自动驾驶VLA的空间感知与语义推理两难 — 尝试在一个框架内统一两者。UniDriveVLA
- 用3D纹理做对抗攻击面 — 比2D贴片更接近真实部署场景,对VLA模型的鲁棒性敲响警钟。Tex3D
- 用2D生成能力弥补3D数据稀缺 — 统一文本到2D和3D生成的基础模型。Omni123
- 基于图结构自动合成跨模态多跳推理数据 — 弥补现有多模态基准的单图局限。CRIT
- 单次前向传播处理任意分辨率图像 — 让ViT在密集预测任务上不再受预训练分辨率约束。SPAR
- 用视觉谜语测试视觉推理 — 当图片只是线索而非答案时,现有模型的认知能力断崖式下降。RebusBench
Don't miss what's next. Subscribe to AI论文简报: