12k样本赢金融SOTA,CUDA优化快35%
- 垂直领域post-training数据比模型大小更重要:金融场景系统消融实验表明,蒸馏质量控制+difficulty-aware采样让8B模型仅用12k RL样本就超越同规模SOTA
- 离线RL让agent规划从碰运气变成系统工程,微软用合成轨迹+质量打分训练工具调用规划,思路可迁移到任何多步agent任务
- 模型部署后不该被锁死在固定权重上。腾讯HY-WU引入功能性记忆模块,实时生成实例级权重更新,免去测试时优化开销
- LLM优化CUDA kernel扩展到通用HPC场景,新基准MSKernelBench覆盖四类任务,多agent架构整体比现有方法快35%
也值得关注
- RL agent自主做架构搜索和超参研究,perpetual运行直到收敛 — 思路大胆,但目前验证规模还小。
- 不训练不微调,用activation steering精准控制内镜图像的病理特征 — 在扩散模型中生成因果训练数据。
- RLVR训练后推理链充斥冗余步骤,re-solving策略让模型回到关键节点重新推演 — 效率和质量双升(ICLR)。
- 幻灯片自动生成终于有了细粒度rubric评测基准 — 覆盖布局、内容、视觉一致性多个维度。
- Mila的行星级4D时空世界模型 — 把多分辨率hash编码扩展到时间维度,跨世纪跨大陆的自监督表征。
- 长视频理解的可信度问题:关键帧缺失时VLM仍然高置信度作答 — 评测分数虚高(CVPR)。
- 把RAG引入基因扰动响应预测 — 跨细胞类型泛化显著优于纯深度学习方法(ICLR)。
- 将conformal prediction引入生成式分子设计 — 无需oracle即可提供统计保证(ICLR)。
Don't miss what's next. Subscribe to AI论文简报: