AI论文简报

Archives
Log in
April 17, 2026

腾讯开源3D世界生成、VLM偏科探针

  • 腾讯HY-World 2.0把3D世界生成做进工程可用:四阶段pipeline(全景→轨迹→视角扩展→多视图合成),文字或单图直接出可导航3DGS场景,开源对标闭源Marble。
  • 视觉任务的锅,其实是文字在背:Stanford的centroid替换探针在7个多模态模型上测出擦除文字侧的准确率代价是擦除视觉侧的4倍,顺着做对比解码单任务最高+16.9%,且不用重训。
  • VGF把RL微调重新框成最优传输:不显式参数化策略,沿价值梯度"搬运"参考分布的粒子,传输预算天然对接test-time scaling;思路干净,但HF只2赞,先列入观察。
  • 3PT给residual stream塞进"三相电"先验:hidden vector按cyclic channel切片、块间用Givens旋转保持相位对齐,123M规模比RoPE-Only困惑度降7.2%,但N=3和N=1统计上区分不开,验证规模有限。

也值得关注

  • CMU搭了一个模拟AI marketplace环境测多agent竞争动态 — 当retrieval系统和LLM同时争夺用户时,行为分布会被市场激励扭曲到什么方向。
  • APEX-MEM用半结构化记忆+时间推理应对长期对话里的记忆幻觉 — 比纯扩大context window或朴素retrieval更稳,ACL接收。
  • Google的FoodSense让VLM从食物图预测味道、气味、质地甚至声音 — 多感官benchmark把视觉语言模型推向人类跨模态直觉。
  • Berkeley研究在发育规模数据下训练的LM是否和大模型一样形成跨句式共享的filler-gap表征 — 小模型里能看到的机制未必和大模型一致。
  • UW把用户记忆选择从"和query相似"升级到"对response有用" — LLM个性化里一个容易被忽略的反向信号。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.