ProEval省8-65倍评测样本


            
        April 28, 2026
    
    
ProEval省8-65倍评测样本


评测变成概率题：Google用预训练高斯过程当代理函数估计大模型在benchmark上的表现，1%误差下样本量降到原来的1/8到1/65，对照实验的预算结构从"全量跑"切到"先筛后跑"


FT与ICL的清晰分野：在文法明确的形式语言任务上，分布内FT明显占优、分布外两者打平，ICL对模型规模和分词敏感是结构性问题而非实验噪声


版权语料的工程绕道：标注明文公开、源文本非可逆hash，跨版次仍能对齐98.7%-99.79%的token，跨机构共享从法律问题改写成工程问题


SAM临床落地卡在prompt而非模型：saliency引导的解剖学先验加跨切片一致性约束，让SAM在粗糙中线点这类弱prompt下也能稳定分割


也值得关注

监控档案里用文本搜异常行为，pose和语义之间存在gap — cascade框架先做粗对齐再细化，把几何结构和语义意图分两阶段处理。
开放词表目标检测里VLM伪标签有系统偏置 — 用层级一致性约束做去偏，让objectness不被预训练分布带偏。
视频里同一人在多个事件中扮演不同角色 — 多模态coreference显式建模身份-角色映射，让VidSitu不再把同一人切成多份。
text-to-motion在不同时间尺度上分别建模 — 层级flow matching兼顾粗粒度结构和细节运动，避免单一尺度上的取舍。
半监督医学分割不只看mask — 生成式双分布对齐把特征级信息也补进来，从未标注数据里挖更多监督信号。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)