AI论文简报

Archives
Log in
April 6, 2026

32B硬件代码开源进第一梯队,Agent难题仅23%

  • 硬件代码调试有了开源32B选项,InCoder从工程师实际犯错过程中蒸馏推理链,在LiveCodeBench和CAD-Coder上进入开源第一梯队,不过KernelBench 38%说明GPU优化类任务离实用仍远
  • CLIP的空间语义短板是训练目标决定的。CoME-VL把CLIP和DINO做表征级融合,grounding任务提升5.4%,给双编码器方案提供了系统性ablation参考
  • Agent"答对了"可能只是蒙的——Agentic-MME从工具调用的过程级评测切入,最强模型在复杂任务上仅23%,overthinking指标揭示步骤效率的真实差距
  • RAG翻车原因是多维交织的,单一准确率定位不了瓶颈:这篇AAAI工作把诊断拆成推理复杂度、检索难度、文档结构、可解释性四轴,帮团队从"整体调参"转向定向修复

也值得关注

  • 计算机操作Agent的安全风险模式与聊天截然不同 — 持久化状态和跨步骤副作用带来全新的评测维度。
  • 开放词汇检测推理时可以甩掉文本编码器 — DeCo-DETR解耦视觉-文本认知路径,ICLR接收。
  • GNN代理模型推进到洪水预报实际运行 — NVIDIA团队关注推理速度与精度的工程权衡。
  • 火星遥感首个多传感器基础模型 — 用模型合并整合三种不同分辨率的传感器表示。
  • 轻量即插即用模块解决多帧追踪的模型漂移 — CVPR接收,对视觉追踪pipeline的实用改进。
  • 成员推断攻击在对抗性输入下可能失效 — 现有MIA的"诚实查询"假设可能过于乐观。
  • 从极稀疏卫星观测概率性重建三维海洋动力学 — Google团队的深度感知生成方法。
  • 工业检测场景识别从未见过的缺陷类型 — visual prompting路线的CVPR工作。
  • 从文本生成物理合理的手-物体交互网格 — 瞄准灵巧抓取和VR内容生成。
  • 毫米波通信信号做高保真3D场景成像 — 恶劣天气下摄像头和LiDAR的潜在替代方案。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.