腾讯开源3D世界生成、VLM偏科探针


            
        April 17, 2026
    
    
腾讯开源3D世界生成、VLM偏科探针


腾讯HY-World 2.0把3D世界生成做进工程可用：四阶段pipeline（全景→轨迹→视角扩展→多视图合成），文字或单图直接出可导航3DGS场景，开源对标闭源Marble。


视觉任务的锅，其实是文字在背：Stanford的centroid替换探针在7个多模态模型上测出擦除文字侧的准确率代价是擦除视觉侧的4倍，顺着做对比解码单任务最高+16.9%，且不用重训。


VGF把RL微调重新框成最优传输：不显式参数化策略，沿价值梯度"搬运"参考分布的粒子，传输预算天然对接test-time scaling；思路干净，但HF只2赞，先列入观察。


3PT给residual stream塞进"三相电"先验：hidden vector按cyclic channel切片、块间用Givens旋转保持相位对齐，123M规模比RoPE-Only困惑度降7.2%，但N=3和N=1统计上区分不开，验证规模有限。


也值得关注

CMU搭了一个模拟AI marketplace环境测多agent竞争动态 — 当retrieval系统和LLM同时争夺用户时，行为分布会被市场激励扭曲到什么方向。
APEX-MEM用半结构化记忆+时间推理应对长期对话里的记忆幻觉 — 比纯扩大context window或朴素retrieval更稳，ACL接收。
Google的FoodSense让VLM从食物图预测味道、气味、质地甚至声音 — 多感官benchmark把视觉语言模型推向人类跨模态直觉。
Berkeley研究在发育规模数据下训练的LM是否和大模型一样形成跨句式共享的filler-gap表征 — 小模型里能看到的机制未必和大模型一致。
UW把用户记忆选择从"和query相似"升级到"对response有用" — LLM个性化里一个容易被忽略的反向信号。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)