语料编译成目录，日志训LLM替身


            
        April 18, 2026
    
    
语料编译成目录，日志训LLM替身


RAG从"检索-消费"变成"导航-游走"：Corpus2Skill把整个语料离线编译成层级化skill目录，agent按摘要往下钻而不是被动等结果，WixQA上全面压过dense retrieval、RAPTOR和agentic RAG。


生产日志本身就是免费蒸馏语料，TRACER用parity gate让轻量surrogate接管77类意图的83-100%流量；NLI任务上会主动拒绝部署，"知道自己不行"反而是最关键的能力。


Visual RAG的四段pipeline被压成一个joint policy——UniDoc-RL用分层动作和dense reward端到端训练，把"主动裁剪region"也纳入动作空间，三个benchmark最高提升17.7%。


Flow matching后训练终于够到了早期生成步。LeapAlign把长轨迹压成两次随机起止的"跳跃"，绕开反传爆显存与直接梯度法动不了早期步的两难，已被CVPR接收。


模仿+规则修正换成对抗闭环：RAD-2让diffusion出候选、RL判别器重排打分，再配BEV特征空间的闭环仿真加速训练，碰撞率比强diffusion基线降56%。


也值得关注

Deep Research Agent有了更真实的benchmark — 真实用户材料配per-task评分标准，覆盖多模态多文件报告生成。DR³-Eval
VLM蒸馏不能一套信号通吃两个模态 — Switch-KD承认视觉分支和语言分支需要不同的监督信号。Switch-KD
直接拼AIGC工具做网页会风格撕裂 — MM-WebAgent用分层框架保住全局一致性。MM-WebAgent
3DGS primitive分配从局部启发式转向全局scene token — GlobalSplat让feed-forward 3DGS能拿到场景级视角。GlobalSplat
长上下文RL用模型自身高幅值activation当训练信号 — LongAct绕开了传统reward engineering和data curation路径。LongAct
单agent tree search的多样性天花板用多agent打破 — MARS²把轨迹多样性问题扔给并行agent群。MARS²
LLM推理失败集中在少数几个"拐点"token上 — 不是均匀分布的噪声，而是可定位的关键错位点。Dissecting Failure Dynamics
VLM视觉token剪枝变成Pareto前沿学习问题 — 华为VisPCO按预算自适应选剪枝配置。VisPCO
单层Mamba能不能独立撑起时间序列分类 — ICLR的MambaSL做了一次独立能力探索。MambaSL

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)