Archive (Page 6) • AI论文简报 • Buttondown

医疗AI、科学Agent、机器人VLA：垂直领域正在成为AI的主战场

February 16, 2026

医疗多模态模型开始超越GPT-4o级闭源系统，MedXIAOHE用实体感知预训练+RL推理训练打通了从罕见病到长报告生成的全链路小米开源机器人VLA模型，消费级GPU上实现实时双臂操控，从训练到部署的异步执行设计是关键...

RL训练数据不够用？把简单题拼成难题就行

February 15, 2026

把做对的简单题拼成新难题，Composition-RL让RLVR训练数据的有效利用率大幅提升，4B到30B模型一致涨点 5B参数做到80B的活。DeepGen 1.0在图像生成和编辑上同时超越体量大十几倍的对手，代码权重全开源...

11B参数跑出frontier级Agent智能，Coding Agent评测该换赛道了

February 14, 2026

196B参数但只激活11B就对标GPT-5.2，Step 3.5 Flash用MoE+RL把Agent效率拉到新高度，开源权重 Coding Agent能修bug不代表能开发功能。FeatureBench把评测从单PR修复升级到端到端feature开发，最强模型只过11%...

AI数学研究agent解开真实开放问题，世界模型扎堆涌现

February 13, 2026

AI第一次独立解开数学界的开放问题，Google DeepMind的Aletheia agent在Erdős猜想数据库中自主解决了4道未解题 GUI世界模型不再用像素硬猜。Code2World把界面预测变成代码生成问题，8B模型媲美GPT-5 从视频里直接学控制策略，VideoWorld...

文本扩散模型不再只是概念验证

February 12, 2026

文本扩散模型不再只是概念验证，LLaDA2.1的100B模型在代码任务上跑出892 TPS，并首次实现大规模RL训练dLLM 开源视频+音频联合生成终于有了，MOVA一个模型同时生成画面、对白、音效和音乐 GUI Agent三个变体覆盖2B到30B。UI-Venus-1.5在ScreenSpot-...

文本扩散模型不再只是概念验证

February 12, 2026

文本扩散模型不再只是概念验证，LLaDA2.1的100B模型在代码任务上跑出892 TPS，并首次实现大规模RL训练dLLM 开源视频+音频联合生成终于有了，MOVA一个模型同时生成画面、对白、音效和音乐 GUI Agent三个变体覆盖2B到30B。UI-Venus-1.5在ScreenSpot-...

文本扩散模型不再只是概念验证

February 12, 2026

文本扩散模型不再只是概念验证，LLaDA2.1的100B模型在代码任务上跑出892 TPS，并首次实现大规模RL训练dLLM 开源视频+音频联合生成终于有了，MOVA一个模型同时生成画面、对白、音效和音乐 GUI Agent三个变体覆盖2B到30B。UI-Venus-1.5在ScreenSpot-...