答案摆面前agent也视而不见
- Cohere把答案直接放到agent能读到的地方,它仍然按自己的reasoning trace继续走:Terminal-Bench里79-81%的运行"撞见"解法却只有37-50%去用,AppWorld里读到捷径的agent真正调用的不到7%。
- SkillFlow把agent评测从"会不会用工具"挪到"能不能从经验里积累技能",166任务×20家族专门暴露lifetime级失败模式;Kimi K2.5技能使用率66.87%只换来+0.60个点。
- JuRe用128维的depthwise-separable卷积残差块在TSB-AD拿第二,没有attention、没有潜变量、没有对抗组件,消融显示拉开差距的是训练扰动而非网络容量。
- MedFocusLeak在医疗影像非诊断区域注入肉眼不可见扰动,六种模态SOTA攻击成功率,且黑盒可迁移——一个VLM上的对抗样本能打中另一个。
也值得关注
- position paper直指现有memory API返回"扁平事实"是AI最关键的架构缺陷 — 呼吁独立的continuity layer承载"模型已经理解的东西"。
- 清华AnchorMem用anchored facts + associative contexts双层结构 — 避开A-Mem/Mem0那种频繁重写的路径。
- HSG把scene graph从欧氏空间搬到双曲空间 — 显式表达place↔object的层级蕴含关系,用于多视角和3D场景推理。
- 给visual autoregressive模型每个位置动态分配计算深度 — CVPR收录,替代硬剪枝的路子。
- 数据稀缺场景下LLM强化学习的系统性survey — ACL收录,重点讨论外部监督信号的获取成本。
- LLM在医疗QA里的calibration对不同性取向和宗教标记并不均等 — ACL收录,不是准确率而是置信度出现系统性偏差。
- ThreadSumm把嵌套讨论帖总结建模成层级推理问题 — ACL收录,用tree of thoughts分多阶段处理交错回复和重叠话题。
- LookasideVLN给无人机VLN加入方向感知 — CVPR收录,改进城市环境下的自然语言导航。
- adaptive masking在LLM里定位情感和修辞神经元 — ACL收录,给生成方向做可控steering。
- PBSBench关注血涂片单细胞形态而非组织结构 — CVPR收录,给VLM提供全切片图像的多层级框架和benchmark。
Don't miss what's next. Subscribe to AI论文简报: