主动找视角,最强模型仅12%
- 空间智能从被动理解翻成主动感知:TVR让agent对着一张目标照片自己转头迈步去复现视角,最强闭源模型成功率仅12%,但视觉-动作SFT能把一个9B开源模型从个位数拉到50%以上。
- 长上下文压缩也能保住代码推理:LongAttnComp微调一个轻量打分层,训练一次就能跨三个模型家族复用,在代码调试任务上压缩后追平全上下文。
- VLM写代码捏3D模型,卡点很具体:3DCodeBench把12个VLM丢进真实建模软件,失败大多是API用错、几何件断开,多轮迭代加执行反馈才救得回来。
- 技能适配的竞争点转向"归因粒度":SkillAdaptor把失败责任从整条轨迹下沉到具体的step,骨干冻结、免训练,单项提升虽只有+1.5分,但每次改技能都可审计。
也值得关注
- VLM的文档理解能跨语言迁移吗 — HakushoBench用日本政府白皮书构建日语图表/表格VQA benchmark,专门测非英语文档理解这块盲区。
- 法律和人文的引文藏在脚注里 — 现有抽取工具都为自然科学的结构化文末参考文献设计,FOSSIL给脚注引用、和评注交织的场景做了数据集和抽取流程。
- 只在少数时刻更新参数也能做到实用最优 — 线性contextual bandit在"参数极少更新"约束下的算法,观测和选动作仍在线,但只在个别时刻并入reward反馈,贴近真实工程约束(ICML接收)。
Don't miss what's next. Subscribe to AI论文简报: