Lorem Ipsum救回GRPO难题样本


            
        May 10, 2026
    
    
Lorem Ipsum救回GRPO难题样本


Skill1把skill检索/使用/蒸馏合进一个policy：同一任务奖励co-train三件事，避免多奖励互相打架；同期SkillOS走另一条路线攻同一件事，agent持续学习的瓶颈正从单次推理转向skill库的运维方式。


DCI让agent直接grep原始corpus：跳过embedding、向量索引和检索API，在BRIGHT、BEIR若干子集和BrowseComp-Plus跑赢稀疏/稠密/重排序三类baseline，检索瓶颈从算法被挪到接口。


LoPE在prompt前拼一段Lorem Ipsum：1.7B到7B规模都比直接重采样原prompt更能救回GRPO的zero-advantage样本，RL探索从output挪到input这条路过去几乎没人认真试过。


CDM把DMD搬到连续时间：和Consistency Distillation原本分属两派的"轨迹密度"与"分布匹配"被统一进一个框架，1-4步生成不再依赖GAN/reward补丁。


也值得关注

和Skill1同天的另一条skill-library路线 — SkillOS把"哪条skill值得留"当成可训练决策，聚焦curation operator的学习。arXiv
给agentic RL显式注入trajectory-level strategy采样 — 改善long-horizon任务里reactive policy的探索与credit assignment。arXiv
把"自动做研究"落到一个外部度量驱动的闭环里 — 由专门agent协作产出可审计的trial轨迹，而非单一checkpoint。arXiv
diffusion RL fine-tuning的多reward平衡问题 — MARBLE不再训多专家或固定加权，给出一种端到端的方案。arXiv
视频reward model把reasoning和scoring解耦 — 先想清楚再打分，给生成视频对齐人类偏好的下一步。arXiv
Cola DLM做层次化latent diffusion语言模型 — 给非AR文本生成的一个完整代际尝试，关心AR替代路线的可以扫一眼。arXiv
长context理解换思路 — MiA-Signature用一个紧凑表征近似全局激活的下游影响，避开full attention的O(N²)。arXiv
TIDE质疑"token索引只在embedding层注入一次"这条默认设计 — 每层都重新注入token身份，解决rare token和长程退化。arXiv

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)