AI论文简报

Archives
Log in
March 10, 2026

12k样本赢金融SOTA,CUDA优化快35%

  • 垂直领域post-training数据比模型大小更重要:金融场景系统消融实验表明,蒸馏质量控制+difficulty-aware采样让8B模型仅用12k RL样本就超越同规模SOTA
  • 离线RL让agent规划从碰运气变成系统工程,微软用合成轨迹+质量打分训练工具调用规划,思路可迁移到任何多步agent任务
  • 模型部署后不该被锁死在固定权重上。腾讯HY-WU引入功能性记忆模块,实时生成实例级权重更新,免去测试时优化开销
  • LLM优化CUDA kernel扩展到通用HPC场景,新基准MSKernelBench覆盖四类任务,多agent架构整体比现有方法快35%

也值得关注

  • RL agent自主做架构搜索和超参研究,perpetual运行直到收敛 — 思路大胆,但目前验证规模还小。
  • 不训练不微调,用activation steering精准控制内镜图像的病理特征 — 在扩散模型中生成因果训练数据。
  • RLVR训练后推理链充斥冗余步骤,re-solving策略让模型回到关键节点重新推演 — 效率和质量双升(ICLR)。
  • 幻灯片自动生成终于有了细粒度rubric评测基准 — 覆盖布局、内容、视觉一致性多个维度。
  • Mila的行星级4D时空世界模型 — 把多分辨率hash编码扩展到时间维度,跨世纪跨大陆的自监督表征。
  • 长视频理解的可信度问题:关键帧缺失时VLM仍然高置信度作答 — 评测分数虚高(CVPR)。
  • 把RAG引入基因扰动响应预测 — 跨细胞类型泛化显著优于纯深度学习方法(ICLR)。
  • 将conformal prediction引入生成式分子设计 — 无需oracle即可提供统计保证(ICLR)。

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.