Agent难题仅23%过关,CLIP三年路径依赖
- 错误驱动的思维链合成,填补工业代码推理数据空白——InCoder用模型与环境错误反馈的多轮交互生成推理轨迹,这套数据合成策略可迁移到任何缺乏公开专家数据的垂直领域。
- CLIP单编码器用了三年,可能只是路径依赖。CoME-VL融合对比与自监督编码器,定位任务提升5.4%,消融实验揭示了融合的scaling边界。
- "调用了工具"不等于"工具帮上忙":Agentic-MME把工具使用拆成三层审计,最强模型在最难任务上准确率仅23%,大量调用属于无效动作。
- RAG企业落地的瓶颈远不止检索准确率,文档结构、推理链路、可解释性各自是独立失败维度,四轴诊断框架比排行榜分数更能指导优化方向。
也值得关注
- Computer-use agent安全评测聚焦持续操作环境 — 不是聊天场景的越狱,而是跨交互有害行为链的检测。原文
- NVIDIA把GNN洪水预报推向运行级部署 — 多分辨率网格设计是从学术demo到实际预报的关键。原文
- 开放词汇检测推理时去掉文本编码器 — DeCo-DETR将文本知识蒸馏到视觉分支,大幅降低部署开销。原文
- 成员推理攻击在对抗性输入面前不堪一击 — 现有隐私审计工具可能系统性高估了泄露风险。原文
- 首个火星遥感基础模型MOMO — 用model merge整合HiRISE、CTX等三个传感器的独立表征。原文
- 工业质检走向开放集缺陷识别 — 光谱-对比学习让模型检测训练时未见过的缺陷类型。原文
- 轻量即插即用模块抑制多帧跟踪漂移 — 针对历史帧噪声导致的模型漂移问题。原文
- 从稀疏海面卫星数据重建三维海洋状态 — Google用深度感知生成框架填补海洋内部观测空白。原文
- 文本生成手-物体交互网格 — 物理可信度(不穿模、不悬空)是核心挑战。原文
Don't miss what's next. Subscribe to AI论文简报: