主动找视角,最强模型仅12%


            
        June 2, 2026
    
    
主动找视角,最强模型仅12%


空间智能从被动理解翻成主动感知：TVR让agent对着一张目标照片自己转头迈步去复现视角，最强闭源模型成功率仅12%，但视觉-动作SFT能把一个9B开源模型从个位数拉到50%以上。


长上下文压缩也能保住代码推理：LongAttnComp微调一个轻量打分层，训练一次就能跨三个模型家族复用，在代码调试任务上压缩后追平全上下文。


VLM写代码捏3D模型，卡点很具体：3DCodeBench把12个VLM丢进真实建模软件，失败大多是API用错、几何件断开，多轮迭代加执行反馈才救得回来。


技能适配的竞争点转向"归因粒度"：SkillAdaptor把失败责任从整条轨迹下沉到具体的step，骨干冻结、免训练，单项提升虽只有+1.5分，但每次改技能都可审计。


也值得关注

VLM的文档理解能跨语言迁移吗 — HakushoBench用日本政府白皮书构建日语图表/表格VQA benchmark，专门测非英语文档理解这块盲区。
法律和人文的引文藏在脚注里 — 现有抽取工具都为自然科学的结构化文末参考文献设计，FOSSIL给脚注引用、和评注交织的场景做了数据集和抽取流程。
只在少数时刻更新参数也能做到实用最优 — 线性contextual bandit在"参数极少更新"约束下的算法，观测和选动作仍在线，但只在个别时刻并入reward反馈，贴近真实工程约束（ICML接收）。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)