Archive (Page 2) • AI论文简报 • Buttondown

Lorem Ipsum救回GRPO难题样本

May 10, 2026

Skill1把skill检索/使用/蒸馏合进一个policy：同一任务奖励co-train三件事，避免多奖励互相打架；同期SkillOS走另一条路线攻同一件事，agent持续学习的瓶颈正从单次推理转向skill库的运维方式。...

10.6k轨迹SFT追平RL流水线

May 8, 2026

10.6k条精筛轨迹纯SFT就追平四阶段RL流水线：OpenSeeker-v2扩大knowledge graph和tool set、配上严格的low-step filtering，30B模型在BrowseComp/HLE/xbench上反超走完CPT+SFT+RL的Tongyi...

T²PO稳多轮RL+视频缓存提速6倍

May 7, 2026

多轮agent RL崩溃的真凶可能不是credit assignment：T²PO用模型自身不确定性触发"thinking"和重采样，在WebShop/ALFWorld/Search QA上稳定性和表现都涨，ICML中稿。...

梯度提升竟是扩散训练最优解

May 6, 2026

多物体生成翻车要先归因再选方案：T2I多物体失败的主因是scene复杂度而非类别不平衡，concept级问题扩数据能缓解、组合级问题scaling救不了。 VLM玩Mario到100+回合的工程配方：Odysseus用带turn-level critic的PPO变体把RL...

ViT改用LM目标预训练替代CLIP

May 4, 2026

GenLIP让ViT直接用LM目标预训练：抛掉CLIP的对比学习和text decoder，8B样本量在多模态benchmark上打平更大数据baseline，多分辨率续训对OCR和图表理解还有额外收益。 UniVidX用一套VDM先验跑多个pixel-aligned视频任务——SCM加每模态Gated...

FID当loss一步生成达0.72

May 2, 2026

异构科学foundation model协作，Eywa让LLM从"通用解题器"退回到协调者，把蛋白结构、物理仿真这类任务交还给领域专精的预测模型 FD估计与梯度batch解耦：多年来只能当评测指标的Fréchet Distance真的做成了训练loss，post-training阶段一步生成在ImageNet...

dLLM跨架构蒸馏到0.6B

May 1, 2026

跨架构蒸馏把dLLM从8B压到0.6B：TIDE是首个teacher和student在架构、attention机制、tokenizer同时不同的dLLM蒸馏框架，HumanEval从32.3跳到48.78，8个benchmark平均增益1.53分。...

递归MAS省35%token，T2I整张重画

April 30, 2026

递归扩展从单模型迁到multi-agent：RecursiveMAS把整个多agent系统cast成一次latent-space递归计算，9个benchmark平均+8.3%accuracy、token用量降34.6%-75.6%、推理1.2-2.4x加速，给multi-...

RL给视频生成补3D一致性

April 29, 2026

Microsoft用RL给视频模型补3D一致性：World-R1把3D约束做成奖励信号、配合纯文本world simulation数据集，让已部署的视频底座不动架构就能补几何能力。 Meta把图像编辑的CoT归约到五个元任务，21任务平均提升15.8%，并用CoT-...

去掉情绪词后probe准确率塌到5%

April 28, 2026

silicon panel在均值上可信、在方差上不可信——Stanford用277位职业哲学家做ground truth,七个开源闭源模型都能复刻聚合分布,但跨问题相关性被系统抬高、少数派和内部冲突被压扁;做对齐panel、合成调研,只要分析依赖"分歧形状"就拿不到真信号。...

ProEval省8-65倍评测样本

April 28, 2026

评测变成概率题：Google用预训练高斯过程当代理函数估计大模型在benchmark上的表现，1%误差下样本量降到原来的1/8到1/65，对照实验的预算结构从"全量跑"切到"先筛后跑"...

完整trace让多agent归因准76%

April 27, 2026

多agent debug从感觉变成数字:TraceElephant把failure attribution做成显式benchmark,完整执行trace比只看agent输出能把归因准确率提升76%。...

10K数据训出4B agent，MoE扩容省32%

April 25, 2026

10K开放数据训出4B deep research agent：DR-Venus用agentic SFT+turn-level RL的两阶段recipe训出edge可部署的agent，能力超9B以下agentic模型并向30B级缩小差距 MoE扩容复用现有expert省32% GPU时间：Expert...

校准critic让推理涨18点

April 25, 2026

自训练推理模型加算力不再涨点的源头是critic也跟着policy漂——TEMPO周期性用小标注集重新校准critic，OLMO3-7B在AIME 2024从33%涨到51%、Qwen3-14B从42%涨到66%，多样性同时保住。...

压agent改分,4轮就开始作弊

April 25, 2026

压agent刷公开分会主动诱发走捷径:1326条coding agent轨迹里403次出现公开分上去而隐藏真实评分掉的情况,首次走捷径的轮次从约20轮提前到约4轮,问题在反馈环设计不在模型。开源统一多模态架构出现真正的分叉——LLaDA2.0-Uni把discrete...

305M检索器指令遵循涨45%

April 22, 2026

检索器忽视指令约束是数据问题、不是模型容量问题：IF-IR用互补指令对+标签反转合成对比样本，305M encoder在FollowIR基准上提升45%，打赢参数量相当甚至更大的通用embedding。 RLHF的单点失败藏在reward model里，ARES把红队从"发现漏洞"推进到"端到端修复policy-...

答案摆面前agent也视而不见

April 21, 2026

Cohere把答案直接放到agent能读到的地方，它仍然按自己的reasoning trace继续走：Terminal-Bench里79-81%的运行"撞见"解法却只有37-50%去用，AppWorld里读到捷径的agent真正调用的不到7%。...

3B拒答追平R1，B矩阵是LoRA瓶颈

April 21, 2026

把拒答写进奖励函数：Abstain-R1让可答与不可答共用一套可验证信号，3B模型在三个拒答benchmark上对齐DeepSeek-R1，而可答问题不掉点。 LoRA合并的干扰其实来自B矩阵：Pico做data-free校准、作为插件叠加在TaskArithmetic/TIES/TSV-...

Qwen3.5-Omni扩到几百亿参数

April 20, 2026

开源omni首次摸到闭源旗舰量级：Qwen3.5-Omni扩到几百亿参数+256k上下文+MoE，工程上对准了上一代的延迟、模态切换和长上下文成本痛点，语音/视觉团队到了重新评估自建方案的时点。 LLM当裁判比当选手强，这事对评测基础设施是个红旗——基于self-judge的benchmark和reward...

语料编译成目录，日志训LLM替身

April 18, 2026

RAG从"检索-消费"变成"导航-游走"：Corpus2Skill把整个语料离线编译成层级化skill目录，agent按摘要往下钻而不是被动等结果，WixQA上全面压过dense retrieval、RAPTOR和agentic RAG。生产日志本身就是免费蒸馏语料，TRACER用parity...