32B硬件代码开源进第一梯队，Agent难题仅23%


            
        April 6, 2026
    
    
32B硬件代码开源进第一梯队，Agent难题仅23%


硬件代码调试有了开源32B选项，InCoder从工程师实际犯错过程中蒸馏推理链，在LiveCodeBench和CAD-Coder上进入开源第一梯队，不过KernelBench 38%说明GPU优化类任务离实用仍远


CLIP的空间语义短板是训练目标决定的。CoME-VL把CLIP和DINO做表征级融合，grounding任务提升5.4%，给双编码器方案提供了系统性ablation参考


Agent"答对了"可能只是蒙的——Agentic-MME从工具调用的过程级评测切入，最强模型在复杂任务上仅23%，overthinking指标揭示步骤效率的真实差距


RAG翻车原因是多维交织的，单一准确率定位不了瓶颈：这篇AAAI工作把诊断拆成推理复杂度、检索难度、文档结构、可解释性四轴，帮团队从"整体调参"转向定向修复


也值得关注

计算机操作Agent的安全风险模式与聊天截然不同 — 持久化状态和跨步骤副作用带来全新的评测维度。
开放词汇检测推理时可以甩掉文本编码器 — DeCo-DETR解耦视觉-文本认知路径，ICLR接收。
GNN代理模型推进到洪水预报实际运行 — NVIDIA团队关注推理速度与精度的工程权衡。
火星遥感首个多传感器基础模型 — 用模型合并整合三种不同分辨率的传感器表示。
轻量即插即用模块解决多帧追踪的模型漂移 — CVPR接收，对视觉追踪pipeline的实用改进。
成员推断攻击在对抗性输入下可能失效 — 现有MIA的"诚实查询"假设可能过于乐观。
从极稀疏卫星观测概率性重建三维海洋动力学 — Google团队的深度感知生成方法。
工业检测场景识别从未见过的缺陷类型 — visual prompting路线的CVPR工作。
从文本生成物理合理的手-物体交互网格 — 瞄准灵巧抓取和VR内容生成。
毫米波通信信号做高保真3D场景成像 — 恶劣天气下摄像头和LiDAR的潜在替代方案。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)