答案摆面前agent也视而不见


            
        April 21, 2026
    
    
答案摆面前agent也视而不见


Cohere把答案直接放到agent能读到的地方，它仍然按自己的reasoning trace继续走：Terminal-Bench里79-81%的运行"撞见"解法却只有37-50%去用，AppWorld里读到捷径的agent真正调用的不到7%。


SkillFlow把agent评测从"会不会用工具"挪到"能不能从经验里积累技能"，166任务×20家族专门暴露lifetime级失败模式；Kimi K2.5技能使用率66.87%只换来+0.60个点。


JuRe用128维的depthwise-separable卷积残差块在TSB-AD拿第二，没有attention、没有潜变量、没有对抗组件，消融显示拉开差距的是训练扰动而非网络容量。


MedFocusLeak在医疗影像非诊断区域注入肉眼不可见扰动，六种模态SOTA攻击成功率，且黑盒可迁移——一个VLM上的对抗样本能打中另一个。


也值得关注

position paper直指现有memory API返回"扁平事实"是AI最关键的架构缺陷 — 呼吁独立的continuity layer承载"模型已经理解的东西"。
清华AnchorMem用anchored facts + associative contexts双层结构 — 避开A-Mem/Mem0那种频繁重写的路径。
HSG把scene graph从欧氏空间搬到双曲空间 — 显式表达place↔object的层级蕴含关系，用于多视角和3D场景推理。
给visual autoregressive模型每个位置动态分配计算深度 — CVPR收录，替代硬剪枝的路子。
数据稀缺场景下LLM强化学习的系统性survey — ACL收录，重点讨论外部监督信号的获取成本。
LLM在医疗QA里的calibration对不同性取向和宗教标记并不均等 — ACL收录，不是准确率而是置信度出现系统性偏差。
ThreadSumm把嵌套讨论帖总结建模成层级推理问题 — ACL收录，用tree of thoughts分多阶段处理交错回复和重叠话题。
LookasideVLN给无人机VLN加入方向感知 — CVPR收录，改进城市环境下的自然语言导航。
adaptive masking在LLM里定位情感和修辞神经元 — ACL收录，给生成方向做可控steering。
PBSBench关注血涂片单细胞形态而非组织结构 — CVPR收录，给VLM提供全切片图像的多层级框架和benchmark。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)