400万游戏帧练渲染，技能内化胜过检索


            
        April 4, 2026
    
    
400万游戏帧练渲染，技能内化胜过检索


离散token是LLM的架构天花板而非优化目标，综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。


Agent技能用RL内化进参数比检索注入更强：SKILL0的渐进撤除课程在ALFWorld上提升9.7%，推理时每步上下文不到500 token。


3A游戏引擎是生成式渲染被忽视的数据金矿——400万帧同步RGB+G-buffer数据，微调后的模型在跨数据集泛化上明显领先。


视觉特征可以用文本提示实时转向。在ViT编码层内注入交叉注意力，异常检测等任务零样本泛化，通用能力不退化。


也值得关注

在latent空间做跨模态交叉推理 — 避免把视觉内容翻译成文本的信息损失。LatentUM
多个LLM agent自主探索、反思、协作解决开放性问题 — 不再依赖硬编码的搜索规则。CORAL
用近似身份干扰项消除视觉编码器对背景依赖 — 让身份表征真正聚焦于对象本身。NearID
视频擦除不只是填补空白 — 当被移除对象有物理交互时，需要重新推理整个场景的因果链。VOID
自动驾驶VLA的空间感知与语义推理两难 — 尝试在一个框架内统一两者。UniDriveVLA
用3D纹理做对抗攻击面 — 比2D贴片更接近真实部署场景，对VLA模型的鲁棒性敲响警钟。Tex3D
用2D生成能力弥补3D数据稀缺 — 统一文本到2D和3D生成的基础模型。Omni123
基于图结构自动合成跨模态多跳推理数据 — 弥补现有多模态基准的单图局限。CRIT
单次前向传播处理任意分辨率图像 — 让ViT在密集预测任务上不再受预训练分辨率约束。SPAR
用视觉谜语测试视觉推理 — 当图片只是线索而非答案时，现有模型的认知能力断崖式下降。RebusBench

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)