高德纳的难题被AI攻破，但谁来检查AI写的代码？


            
        March 7, 2026
    
    
高德纳的难题被AI攻破，但谁来检查AI写的代码？


        1. 高德纳的未解难题被Claude攻破，数学家与AI的新关系正在被改写
「Shock! Shock!」87岁的计算机科学家高德纳在斯坦福发出的这封短信，让整个数学社区为之一震。他花了数周研究的一个开放问题，刚被Anthropic的混合推理模型Claude Opus 4.6解决了。
2. AI coding agent越来越能写，但「谁来验证」的问题越来越尖锐
阿里最新的Qwen3-Coder-Next只激活80B参数中的3B，就在主流代码基准上跑出接近旗舰模型的修复能力，证明小参数也能撑起强coding agent。
3. Simon Willison发布AI agent工程指南，「反模式」清单直指行业共性问题
「不要把你没审过的代码扔给协作者。」独立开发者Simon Willison在最新发布的AI agent工程指南中，把这条列为首要反模式。他描述的场景在开发团队中已经越来越常见：有人用agent生成了几百甚至上千行代码，未经审查就提交了Pull Request，实际上是把验证工作转嫁给了队友。

快讯

快影发布Kling-MotionControl，用统一DiT框架实现角色动画驱动 该框架采用分治策略，将异构运动信号（面部、身体、手部）统一处理，可从驱动视频中提取动态并迁移至参考图像，生成高保真角色动画。


多模态预训练实验揭示：视觉扩散与语言预测可在同一框架内联合训练 研究团队采用Transfusion框架，对语言用next-token预测、对视觉用扩散模型，从零开始做受控预训练实验，系统隔离了影响多模态预训练效果的关键因素。


PRISM引入过程奖励模型引导推理，缓解深度思考中的「越想越错」问题 现有深度推理框架在扩展推理步数时，常因缺乏正确性信号而放大错误、压制正确的少数解。PRISM通过过程奖励模型在推理过程中提供逐步校验，打破这一瓶颈。


Utonia尝试用一个点云编码器覆盖所有领域 该模型在遥感、室外LiDAR、室内RGB-D、CAD模型和RGB视频提取的点云上统一做自监督预训练，尽管各领域的传感几何和密度差异极大，仍学到一致的表征。


Image-CoT应用于图像编辑遇到三大挑战，新方法提出自适应推理时间分配 与文生图不同，图像编辑的解空间受源图和指令约束。研究发现固定采样预算在编辑任务中效率低下，提出自适应测试时缩放策略，按任务难度动态分配推理资源。


Kiwi-Edit发布可扩展数据管线，解决参考图引导视频编辑的数据瓶颈 指令式视频编辑在精细视觉控制上受限于自然语言的表达能力，参考图引导是更好方案但缺乏训练数据。Kiwi-Edit构建了一条从现有编辑对中生成高质量配对数据的管线。


InSight提出基于加权互信息的RL训练数据选择，替代「按难度选题」的粗放策略 现有强化学习数据筛选多依赖难度启发式，默认「中等难度=最有信息量」，忽略了样本量不足带来的认知不确定性。InSight用信息论方法重新定义数据价值。


SteerEval基准测试LLM可控性：语言特征、情感和人格三个维度逐层评估 该基准将可控性分为「表达什么」「如何表达」「如何实例化」三个层级，覆盖语言特征、情感和人格三个领域，为评估LLM在社会敏感场景中的行为一致性提供统一框架。


Mix-GRM将广度推理与深度推理解耦，提升生成式奖励模型评估可靠性 现有生成式奖励模型依赖无结构的链式推理扩展长度来提升效果，Mix-GRM将推理拆分为广度CoT（多维度原则覆盖）和深度CoT（实质性判断推导），分别优化后协同工作。


UniG2U-Bench发布：系统测试「生成能力是否真的提升了理解能力」 统一多模态模型生成能力日益强大，但生成是否以及何时改善理解仍不清楚。该基准将生成到理解的评估分为7类30个子任务，要求不同程度的视觉变换能力。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI资讯速览:
                            
                        
            Email address (required)