高德纳的难题被AI攻破,但谁来检查AI写的代码?
1. 高德纳的未解难题被Claude攻破,数学家与AI的新关系正在被改写 「Shock! Shock!」87岁的计算机科学家高德纳在斯坦福发出的这封短信,让整个数学社区为之一震。他花了数周研究的一个开放问题,刚被Anthropic的混合推理模型Claude Opus 4.6解决了。
2. AI coding agent越来越能写,但「谁来验证」的问题越来越尖锐 阿里最新的Qwen3-Coder-Next只激活80B参数中的3B,就在主流代码基准上跑出接近旗舰模型的修复能力,证明小参数也能撑起强coding agent。
3. Simon Willison发布AI agent工程指南,「反模式」清单直指行业共性问题 「不要把你没审过的代码扔给协作者。」独立开发者Simon Willison在最新发布的AI agent工程指南中,把这条列为首要反模式。他描述的场景在开发团队中已经越来越常见:有人用agent生成了几百甚至上千行代码,未经审查就提交了Pull Request,实际上是把验证工作转嫁给了队友。
快讯
- 快影发布Kling-MotionControl,用统一DiT框架实现角色动画驱动 该框架采用分治策略,将异构运动信号(面部、身体、手部)统一处理,可从驱动视频中提取动态并迁移至参考图像,生成高保真角色动画。
- 多模态预训练实验揭示:视觉扩散与语言预测可在同一框架内联合训练 研究团队采用Transfusion框架,对语言用next-token预测、对视觉用扩散模型,从零开始做受控预训练实验,系统隔离了影响多模态预训练效果的关键因素。
- PRISM引入过程奖励模型引导推理,缓解深度思考中的「越想越错」问题 现有深度推理框架在扩展推理步数时,常因缺乏正确性信号而放大错误、压制正确的少数解。PRISM通过过程奖励模型在推理过程中提供逐步校验,打破这一瓶颈。
- Utonia尝试用一个点云编码器覆盖所有领域 该模型在遥感、室外LiDAR、室内RGB-D、CAD模型和RGB视频提取的点云上统一做自监督预训练,尽管各领域的传感几何和密度差异极大,仍学到一致的表征。
- Image-CoT应用于图像编辑遇到三大挑战,新方法提出自适应推理时间分配 与文生图不同,图像编辑的解空间受源图和指令约束。研究发现固定采样预算在编辑任务中效率低下,提出自适应测试时缩放策略,按任务难度动态分配推理资源。
- Kiwi-Edit发布可扩展数据管线,解决参考图引导视频编辑的数据瓶颈 指令式视频编辑在精细视觉控制上受限于自然语言的表达能力,参考图引导是更好方案但缺乏训练数据。Kiwi-Edit构建了一条从现有编辑对中生成高质量配对数据的管线。
- InSight提出基于加权互信息的RL训练数据选择,替代「按难度选题」的粗放策略 现有强化学习数据筛选多依赖难度启发式,默认「中等难度=最有信息量」,忽略了样本量不足带来的认知不确定性。InSight用信息论方法重新定义数据价值。
- SteerEval基准测试LLM可控性:语言特征、情感和人格三个维度逐层评估 该基准将可控性分为「表达什么」「如何表达」「如何实例化」三个层级,覆盖语言特征、情感和人格三个领域,为评估LLM在社会敏感场景中的行为一致性提供统一框架。
- Mix-GRM将广度推理与深度推理解耦,提升生成式奖励模型评估可靠性 现有生成式奖励模型依赖无结构的链式推理扩展长度来提升效果,Mix-GRM将推理拆分为广度CoT(多维度原则覆盖)和深度CoT(实质性判断推导),分别优化后协同工作。
- UniG2U-Bench发布:系统测试「生成能力是否真的提升了理解能力」 统一多模态模型生成能力日益强大,但生成是否以及何时改善理解仍不清楚。该基准将生成到理解的评估分为7类30个子任务,要求不同程度的视觉变换能力。
Don't miss what's next. Subscribe to AI资讯速览: