TTT就是线性注意力,Terminal Agent数据配方开源
- TTT架构被证明等价于线性注意力算子,NVIDIA团队的形式化证明将两个独立研究社区的技术积累打通,高效序列建模的设计空间大幅缩减
- 终端Agent的训练数据工程首次系统公开:从种子任务生成到技能组合、训练策略对比,全套数据集和模型权重开源。8B模型准确率从2.5%跳到13.0%
- RL训练视觉Agent的"偷懒"难题有了工程方案,过采样+累积工具奖励的组合有效遏制interaction collapse,模型不再退化成单轮问答
- 多模态检索的存储瓶颈迎来通用压缩方案。注意力引导聚类将文档向量压到固定预算内,跨文本、图像、视频三种模态均保持检索质量
- Google Aletheia全自主完成数学证明挑战,但10道题的样本量远不够下结论——数学推理benchmark本身的成熟度可能是更大的瓶颈
也值得关注
- VLM评测从单轮VQA升级到因果推理层级 — 理解几何、接触、支撑关系如何约束可行动作。原文
- Agentic数据合成让VLM和扩散模型学会修复生成图像中的视觉伪影 — 不只是检测,还能定位并修复。原文
- 文字渲染质量的评估存在盲区 — 主流MLLM和OCR模型对结构性异常几乎视而不见,CVPR论文。原文
- 驾驶场景世界模型用ray space做4D时空推理 — Berkeley团队,统一处理空间和时间相关性,CVPR。原文
- 脊柱运动建模的首个开放3D数据集 — 从生物力学仿真到计算机视觉的桥梁,CVPR。原文
- CMU量化LLM对训练数据中个人信息的记忆程度 — 邮箱、电话、IP地址,泄露风险比预想的更系统化。原文
- AI换脸检测+定位+修复一体化的鲁棒水印方案 — 不止于检测,还能恢复被篡改区域,CVPR。原文
- 偏好反馈的oracle本身就是不准的 — 在这个前提下做在线对齐的鲁棒算法,更贴近真实部署场景。原文
- 蛋白质语言模型的注意力模式与NLP Transformer存在系统性差异 — 同一架构在不同数据域学出不同计算策略,据此改进推理效率。原文
Don't miss what's next. Subscribe to AI论文简报: