12k样本赢金融SOTA，CUDA优化快35%


            
        March 10, 2026
    
    
12k样本赢金融SOTA，CUDA优化快35%


垂直领域post-training数据比模型大小更重要：金融场景系统消融实验表明，蒸馏质量控制+difficulty-aware采样让8B模型仅用12k RL样本就超越同规模SOTA


离线RL让agent规划从碰运气变成系统工程，微软用合成轨迹+质量打分训练工具调用规划，思路可迁移到任何多步agent任务


模型部署后不该被锁死在固定权重上。腾讯HY-WU引入功能性记忆模块，实时生成实例级权重更新，免去测试时优化开销


LLM优化CUDA kernel扩展到通用HPC场景，新基准MSKernelBench覆盖四类任务，多agent架构整体比现有方法快35%


也值得关注

RL agent自主做架构搜索和超参研究，perpetual运行直到收敛 — 思路大胆，但目前验证规模还小。
不训练不微调，用activation steering精准控制内镜图像的病理特征 — 在扩散模型中生成因果训练数据。
RLVR训练后推理链充斥冗余步骤，re-solving策略让模型回到关键节点重新推演 — 效率和质量双升（ICLR）。
幻灯片自动生成终于有了细粒度rubric评测基准 — 覆盖布局、内容、视觉一致性多个维度。
Mila的行星级4D时空世界模型 — 把多分辨率hash编码扩展到时间维度，跨世纪跨大陆的自监督表征。
长视频理解的可信度问题：关键帧缺失时VLM仍然高置信度作答 — 评测分数虚高（CVPR）。
把RAG引入基因扰动响应预测 — 跨细胞类型泛化显著优于纯深度学习方法（ICLR）。
将conformal prediction引入生成式分子设计 — 无需oracle即可提供统计保证（ICLR）。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)