32B硬件代码开源进第一梯队,Agent难题仅23%
- 硬件代码调试有了开源32B选项,InCoder从工程师实际犯错过程中蒸馏推理链,在LiveCodeBench和CAD-Coder上进入开源第一梯队,不过KernelBench 38%说明GPU优化类任务离实用仍远
- CLIP的空间语义短板是训练目标决定的。CoME-VL把CLIP和DINO做表征级融合,grounding任务提升5.4%,给双编码器方案提供了系统性ablation参考
- Agent"答对了"可能只是蒙的——Agentic-MME从工具调用的过程级评测切入,最强模型在复杂任务上仅23%,overthinking指标揭示步骤效率的真实差距
- RAG翻车原因是多维交织的,单一准确率定位不了瓶颈:这篇AAAI工作把诊断拆成推理复杂度、检索难度、文档结构、可解释性四轴,帮团队从"整体调参"转向定向修复
也值得关注
- 计算机操作Agent的安全风险模式与聊天截然不同 — 持久化状态和跨步骤副作用带来全新的评测维度。
- 开放词汇检测推理时可以甩掉文本编码器 — DeCo-DETR解耦视觉-文本认知路径,ICLR接收。
- GNN代理模型推进到洪水预报实际运行 — NVIDIA团队关注推理速度与精度的工程权衡。
- 火星遥感首个多传感器基础模型 — 用模型合并整合三种不同分辨率的传感器表示。
- 轻量即插即用模块解决多帧追踪的模型漂移 — CVPR接收,对视觉追踪pipeline的实用改进。
- 成员推断攻击在对抗性输入下可能失效 — 现有MIA的"诚实查询"假设可能过于乐观。
- 从极稀疏卫星观测概率性重建三维海洋动力学 — Google团队的深度感知生成方法。
- 工业检测场景识别从未见过的缺陷类型 — visual prompting路线的CVPR工作。
- 从文本生成物理合理的手-物体交互网格 — 瞄准灵巧抓取和VR内容生成。
- 毫米波通信信号做高保真3D场景成像 — 恶劣天气下摄像头和LiDAR的潜在替代方案。
Don't miss what's next. Subscribe to AI论文简报: