AI论文简报

Archives
Log in
April 4, 2026

400万游戏帧练渲染,技能内化胜过检索

  • 离散token是LLM的架构天花板而非优化目标,综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。
  • Agent技能用RL内化进参数比检索注入更强:SKILL0的渐进撤除课程在ALFWorld上提升9.7%,推理时每步上下文不到500 token。
  • 3A游戏引擎是生成式渲染被忽视的数据金矿——400万帧同步RGB+G-buffer数据,微调后的模型在跨数据集泛化上明显领先。
  • 视觉特征可以用文本提示实时转向。在ViT编码层内注入交叉注意力,异常检测等任务零样本泛化,通用能力不退化。

也值得关注

  • 在latent空间做跨模态交叉推理 — 避免把视觉内容翻译成文本的信息损失。LatentUM
  • 多个LLM agent自主探索、反思、协作解决开放性问题 — 不再依赖硬编码的搜索规则。CORAL
  • 用近似身份干扰项消除视觉编码器对背景依赖 — 让身份表征真正聚焦于对象本身。NearID
  • 视频擦除不只是填补空白 — 当被移除对象有物理交互时,需要重新推理整个场景的因果链。VOID
  • 自动驾驶VLA的空间感知与语义推理两难 — 尝试在一个框架内统一两者。UniDriveVLA
  • 用3D纹理做对抗攻击面 — 比2D贴片更接近真实部署场景,对VLA模型的鲁棒性敲响警钟。Tex3D
  • 用2D生成能力弥补3D数据稀缺 — 统一文本到2D和3D生成的基础模型。Omni123
  • 基于图结构自动合成跨模态多跳推理数据 — 弥补现有多模态基准的单图局限。CRIT
  • 单次前向传播处理任意分辨率图像 — 让ViT在密集预测任务上不再受预训练分辨率约束。SPAR
  • 用视觉谜语测试视觉推理 — 当图片只是线索而非答案时,现有模型的认知能力断崖式下降。RebusBench

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.