AI论文简报

Archives
Log in
April 25, 2026

校准critic让推理涨18点

  • 自训练推理模型加算力不再涨点的源头是critic也跟着policy漂——TEMPO周期性用小标注集重新校准critic,OLMO3-7B在AIME 2024从33%涨到51%、Qwen3-14B从42%涨到66%,多样性同时保住。
  • 8M-30M端侧μLM只生成响应前4-8个词,云端模型异步接续后半段:用户感知里延迟消失,端云从二选一改成"开场白+续写"分工。
  • LoRA的"局部性"是一个可独立拎出来的诊断维度,ShadowPEFT用集中式shadow network把adaptation从权重空间挪到层空间,和两天前B矩阵对称性那篇是同类信号。
  • AI带货视频里观众一眼识破的不是画质,是手脸异常和手物穿模。CoInteract用双流训练把空间结构提前编码进生成,推理时辅流被整条移除不增加生成开销。

也值得关注

  • AnyRecon把video diffusion当成3D重建的统一先验 — 任意数量的unordered输入直接喂进去,绕开稀疏视角下几何一致性的老问题。arxiv
  • Tstars-Tryon 1.0公开了商业级virtual try-on的工程取舍 — 极端姿态/光照/运动模糊下的鲁棒性和serving latency都给了真实部署细节。arxiv
  • SmartPhotoCrafter把推理、生成、优化耦合成端到端photo editing流程 — 绕开非专家用户写不出aesthetic instruction的入口痛点。arxiv
  • Chat2Workflow是首个评估LLM从自然语言生成可执行可视化workflow的benchmark — 把这个方向从工程实验拉到可量化对比的位置。arxiv
  • 15个LLM×8任务的进化搜索轨迹分析显示zero-shot能力只解释了最终优化方差的一部分 — 剩下的来自哪里值得继续挖。arxiv
  • CityRAG把城市生成做成autonomous driving的可控仿真环境 — 支持任意天气和动态对象配置。arxiv
  • DASH-KV用不对称KV cache哈希加速长上下文推理 — 绕开常规KV压缩在生成质量上的trade-off。arxiv
  • GRASPrune在post-pretraining阶段联合剪FFN通道和KV head组 — 在统一budget下做结构化剪枝。arxiv
  • 把evaluation而不是model当成scientific discovery的真正bottleneck来分析 — 一篇视角调换的诊断文。arxiv
  • RARE把RAG评测从"文档差异大"假设搬到财报/法律/专利这类高相似度语料 — redundancy-aware是RAG评测下一个洼地。arxiv

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.