AI论文简报

Archives
Log in
April 18, 2026

语料编译成目录,日志训LLM替身

  • RAG从"检索-消费"变成"导航-游走":Corpus2Skill把整个语料离线编译成层级化skill目录,agent按摘要往下钻而不是被动等结果,WixQA上全面压过dense retrieval、RAPTOR和agentic RAG。
  • 生产日志本身就是免费蒸馏语料,TRACER用parity gate让轻量surrogate接管77类意图的83-100%流量;NLI任务上会主动拒绝部署,"知道自己不行"反而是最关键的能力。
  • Visual RAG的四段pipeline被压成一个joint policy——UniDoc-RL用分层动作和dense reward端到端训练,把"主动裁剪region"也纳入动作空间,三个benchmark最高提升17.7%。
  • Flow matching后训练终于够到了早期生成步。LeapAlign把长轨迹压成两次随机起止的"跳跃",绕开反传爆显存与直接梯度法动不了早期步的两难,已被CVPR接收。
  • 模仿+规则修正换成对抗闭环:RAD-2让diffusion出候选、RL判别器重排打分,再配BEV特征空间的闭环仿真加速训练,碰撞率比强diffusion基线降56%。

也值得关注

  • Deep Research Agent有了更真实的benchmark — 真实用户材料配per-task评分标准,覆盖多模态多文件报告生成。DR³-Eval
  • VLM蒸馏不能一套信号通吃两个模态 — Switch-KD承认视觉分支和语言分支需要不同的监督信号。Switch-KD
  • 直接拼AIGC工具做网页会风格撕裂 — MM-WebAgent用分层框架保住全局一致性。MM-WebAgent
  • 3DGS primitive分配从局部启发式转向全局scene token — GlobalSplat让feed-forward 3DGS能拿到场景级视角。GlobalSplat
  • 长上下文RL用模型自身高幅值activation当训练信号 — LongAct绕开了传统reward engineering和data curation路径。LongAct
  • 单agent tree search的多样性天花板用多agent打破 — MARS²把轨迹多样性问题扔给并行agent群。MARS²
  • LLM推理失败集中在少数几个"拐点"token上 — 不是均匀分布的噪声,而是可定位的关键错位点。Dissecting Failure Dynamics
  • VLM视觉token剪枝变成Pareto前沿学习问题 — 华为VisPCO按预算自适应选剪枝配置。VisPCO
  • 单层Mamba能不能独立撑起时间序列分类 — ICLR的MambaSL做了一次独立能力探索。MambaSL

阅读完整版 →

Don't miss what's next. Subscribe to AI论文简报:
Powered by Buttondown, the easiest way to start and grow your newsletter.