ProEval省8-65倍评测样本
- 评测变成概率题:Google用预训练高斯过程当代理函数估计大模型在benchmark上的表现,1%误差下样本量降到原来的1/8到1/65,对照实验的预算结构从"全量跑"切到"先筛后跑"
- FT与ICL的清晰分野:在文法明确的形式语言任务上,分布内FT明显占优、分布外两者打平,ICL对模型规模和分词敏感是结构性问题而非实验噪声
- 版权语料的工程绕道:标注明文公开、源文本非可逆hash,跨版次仍能对齐98.7%-99.79%的token,跨机构共享从法律问题改写成工程问题
- SAM临床落地卡在prompt而非模型:saliency引导的解剖学先验加跨切片一致性约束,让SAM在粗糙中线点这类弱prompt下也能稳定分割
也值得关注
- 监控档案里用文本搜异常行为,pose和语义之间存在gap — cascade框架先做粗对齐再细化,把几何结构和语义意图分两阶段处理。
- 开放词表目标检测里VLM伪标签有系统偏置 — 用层级一致性约束做去偏,让objectness不被预训练分布带偏。
- 视频里同一人在多个事件中扮演不同角色 — 多模态coreference显式建模身份-角色映射,让VidSitu不再把同一人切成多份。
- text-to-motion在不同时间尺度上分别建模 — 层级flow matching兼顾粗粒度结构和细节运动,避免单一尺度上的取舍。
- 半监督医学分割不只看mask — 生成式双分布对齐把特征级信息也补进来,从未标注数据里挖更多监督信号。
Don't miss what's next. Subscribe to AI论文简报: