校准critic让推理涨18点


            
        April 25, 2026
    
    
校准critic让推理涨18点


自训练推理模型加算力不再涨点的源头是critic也跟着policy漂——TEMPO周期性用小标注集重新校准critic，OLMO3-7B在AIME 2024从33%涨到51%、Qwen3-14B从42%涨到66%，多样性同时保住。


8M-30M端侧μLM只生成响应前4-8个词，云端模型异步接续后半段：用户感知里延迟消失，端云从二选一改成"开场白+续写"分工。


LoRA的"局部性"是一个可独立拎出来的诊断维度，ShadowPEFT用集中式shadow network把adaptation从权重空间挪到层空间，和两天前B矩阵对称性那篇是同类信号。


AI带货视频里观众一眼识破的不是画质，是手脸异常和手物穿模。CoInteract用双流训练把空间结构提前编码进生成，推理时辅流被整条移除不增加生成开销。


也值得关注

AnyRecon把video diffusion当成3D重建的统一先验 — 任意数量的unordered输入直接喂进去，绕开稀疏视角下几何一致性的老问题。arxiv
Tstars-Tryon 1.0公开了商业级virtual try-on的工程取舍 — 极端姿态/光照/运动模糊下的鲁棒性和serving latency都给了真实部署细节。arxiv
SmartPhotoCrafter把推理、生成、优化耦合成端到端photo editing流程 — 绕开非专家用户写不出aesthetic instruction的入口痛点。arxiv
Chat2Workflow是首个评估LLM从自然语言生成可执行可视化workflow的benchmark — 把这个方向从工程实验拉到可量化对比的位置。arxiv
15个LLM×8任务的进化搜索轨迹分析显示zero-shot能力只解释了最终优化方差的一部分 — 剩下的来自哪里值得继续挖。arxiv
CityRAG把城市生成做成autonomous driving的可控仿真环境 — 支持任意天气和动态对象配置。arxiv
DASH-KV用不对称KV cache哈希加速长上下文推理 — 绕开常规KV压缩在生成质量上的trade-off。arxiv
GRASPrune在post-pretraining阶段联合剪FFN通道和KV head组 — 在统一budget下做结构化剪枝。arxiv
把evaluation而不是model当成scientific discovery的真正bottleneck来分析 — 一篇视角调换的诊断文。arxiv
RARE把RAG评测从"文档差异大"假设搬到财报/法律/专利这类高相似度语料 — redundancy-aware是RAG评测下一个洼地。arxiv

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)