Lorem Ipsum救回GRPO难题样本
- Skill1把skill检索/使用/蒸馏合进一个policy:同一任务奖励co-train三件事,避免多奖励互相打架;同期SkillOS走另一条路线攻同一件事,agent持续学习的瓶颈正从单次推理转向skill库的运维方式。
- DCI让agent直接grep原始corpus:跳过embedding、向量索引和检索API,在BRIGHT、BEIR若干子集和BrowseComp-Plus跑赢稀疏/稠密/重排序三类baseline,检索瓶颈从算法被挪到接口。
- LoPE在prompt前拼一段Lorem Ipsum:1.7B到7B规模都比直接重采样原prompt更能救回GRPO的zero-advantage样本,RL探索从output挪到input这条路过去几乎没人认真试过。
- CDM把DMD搬到连续时间:和Consistency Distillation原本分属两派的"轨迹密度"与"分布匹配"被统一进一个框架,1-4步生成不再依赖GAN/reward补丁。
也值得关注
- 和Skill1同天的另一条skill-library路线 — SkillOS把"哪条skill值得留"当成可训练决策,聚焦curation operator的学习。arXiv
- 给agentic RL显式注入trajectory-level strategy采样 — 改善long-horizon任务里reactive policy的探索与credit assignment。arXiv
- 把"自动做研究"落到一个外部度量驱动的闭环里 — 由专门agent协作产出可审计的trial轨迹,而非单一checkpoint。arXiv
- diffusion RL fine-tuning的多reward平衡问题 — MARBLE不再训多专家或固定加权,给出一种端到端的方案。arXiv
- 视频reward model把reasoning和scoring解耦 — 先想清楚再打分,给生成视频对齐人类偏好的下一步。arXiv
- Cola DLM做层次化latent diffusion语言模型 — 给非AR文本生成的一个完整代际尝试,关心AR替代路线的可以扫一眼。arXiv
- 长context理解换思路 — MiA-Signature用一个紧凑表征近似全局激活的下游影响,避开full attention的O(N²)。arXiv
- TIDE质疑"token索引只在embedding层注入一次"这条默认设计 — 每层都重新注入token身份,解决rare token和长程退化。arXiv
Don't miss what's next. Subscribe to AI论文简报: