AI论文简报
Archives
Search...
Log in
Subscribe
Lorem Ipsum救回GRPO难题样本
May 10, 2026
Skill1把skill检索/使用/蒸馏合进一个policy:同一任务奖励co-train三件事,避免多奖励互相打架;同期SkillOS走另一条路线攻同一件事,agent持续学习的瓶颈正从单次推理转向skill库的运维方式。...
10.6k轨迹SFT追平RL流水线
May 8, 2026
10.6k条精筛轨迹纯SFT就追平四阶段RL流水线:OpenSeeker-v2扩大knowledge graph和tool set、配上严格的low-step filtering,30B模型在BrowseComp/HLE/xbench上反超走完CPT+SFT+RL的Tongyi...
T²PO稳多轮RL+视频缓存提速6倍
May 7, 2026
多轮agent RL崩溃的真凶可能不是credit assignment:T²PO用模型自身不确定性触发"thinking"和重采样,在WebShop/ALFWorld/Search QA上稳定性和表现都涨,ICML中稿。...
梯度提升竟是扩散训练最优解
May 6, 2026
多物体生成翻车要先归因再选方案:T2I多物体失败的主因是scene复杂度而非类别不平衡,concept级问题扩数据能缓解、组合级问题scaling救不了。 VLM玩Mario到100+回合的工程配方:Odysseus用带turn-level critic的PPO变体把RL...
ViT改用LM目标预训练替代CLIP
May 4, 2026
GenLIP让ViT直接用LM目标预训练:抛掉CLIP的对比学习和text decoder,8B样本量在多模态benchmark上打平更大数据baseline,多分辨率续训对OCR和图表理解还有额外收益。 UniVidX用一套VDM先验跑多个pixel-aligned视频任务——SCM加每模态Gated...
FID当loss一步生成达0.72
May 2, 2026
异构科学foundation model协作,Eywa让LLM从"通用解题器"退回到协调者,把蛋白结构、物理仿真这类任务交还给领域专精的预测模型 FD估计与梯度batch解耦:多年来只能当评测指标的Fréchet Distance真的做成了训练loss,post-training阶段一步生成在ImageNet...
dLLM跨架构蒸馏到0.6B
May 1, 2026
跨架构蒸馏把dLLM从8B压到0.6B:TIDE是首个teacher和student在架构、attention机制、tokenizer同时不同的dLLM蒸馏框架,HumanEval从32.3跳到48.78,8个benchmark平均增益1.53分。...
递归MAS省35%token,T2I整张重画
April 30, 2026
递归扩展从单模型迁到multi-agent:RecursiveMAS把整个多agent系统cast成一次latent-space递归计算,9个benchmark平均+8.3%accuracy、token用量降34.6%-75.6%、推理1.2-2.4x加速,给multi-...
RL给视频生成补3D一致性
April 29, 2026
Microsoft用RL给视频模型补3D一致性:World-R1把3D约束做成奖励信号、配合纯文本world simulation数据集,让已部署的视频底座不动架构就能补几何能力。 Meta把图像编辑的CoT归约到五个元任务,21任务平均提升15.8%,并用CoT-...
去掉情绪词后probe准确率塌到5%
April 28, 2026
silicon panel在均值上可信、在方差上不可信——Stanford用277位职业哲学家做ground truth,七个开源闭源模型都能复刻聚合分布,但跨问题相关性被系统抬高、少数派和内部冲突被压扁;做对齐panel、合成调研,只要分析依赖"分歧形状"就拿不到真信号。...
ProEval省8-65倍评测样本
April 28, 2026
评测变成概率题:Google用预训练高斯过程当代理函数估计大模型在benchmark上的表现,1%误差下样本量降到原来的1/8到1/65,对照实验的预算结构从"全量跑"切到"先筛后跑"...
完整trace让多agent归因准76%
April 27, 2026
多agent debug从感觉变成数字:TraceElephant把failure attribution做成显式benchmark,完整执行trace比只看agent输出能把归因准确率提升76%。...
10K数据训出4B agent,MoE扩容省32%
April 25, 2026
10K开放数据训出4B deep research agent:DR-Venus用agentic SFT+turn-level RL的两阶段recipe训出edge可部署的agent,能力超9B以下agentic模型并向30B级缩小差距 MoE扩容复用现有expert省32% GPU时间:Expert...
校准critic让推理涨18点
April 25, 2026
自训练推理模型加算力不再涨点的源头是critic也跟着policy漂——TEMPO周期性用小标注集重新校准critic,OLMO3-7B在AIME 2024从33%涨到51%、Qwen3-14B从42%涨到66%,多样性同时保住。...
压agent改分,4轮就开始作弊
April 25, 2026
压agent刷公开分会主动诱发走捷径:1326条coding agent轨迹里403次出现公开分上去而隐藏真实评分掉的情况,首次走捷径的轮次从约20轮提前到约4轮,问题在反馈环设计不在模型。 开源统一多模态架构出现真正的分叉——LLaDA2.0-Uni把discrete...
305M检索器指令遵循涨45%
April 22, 2026
检索器忽视指令约束是数据问题、不是模型容量问题:IF-IR用互补指令对+标签反转合成对比样本,305M encoder在FollowIR基准上提升45%,打赢参数量相当甚至更大的通用embedding。 RLHF的单点失败藏在reward model里,ARES把红队从"发现漏洞"推进到"端到端修复policy-...
答案摆面前agent也视而不见
April 21, 2026
Cohere把答案直接放到agent能读到的地方,它仍然按自己的reasoning trace继续走:Terminal-Bench里79-81%的运行"撞见"解法却只有37-50%去用,AppWorld里读到捷径的agent真正调用的不到7%。...
3B拒答追平R1,B矩阵是LoRA瓶颈
April 21, 2026
把拒答写进奖励函数:Abstain-R1让可答与不可答共用一套可验证信号,3B模型在三个拒答benchmark上对齐DeepSeek-R1,而可答问题不掉点。 LoRA合并的干扰其实来自B矩阵:Pico做data-free校准、作为插件叠加在TaskArithmetic/TIES/TSV-...
Qwen3.5-Omni扩到几百亿参数
April 20, 2026
开源omni首次摸到闭源旗舰量级:Qwen3.5-Omni扩到几百亿参数+256k上下文+MoE,工程上对准了上一代的延迟、模态切换和长上下文成本痛点,语音/视觉团队到了重新评估自建方案的时点。 LLM当裁判比当选手强,这事对评测基础设施是个红旗——基于self-judge的benchmark和reward...
语料编译成目录,日志训LLM替身
April 18, 2026
RAG从"检索-消费"变成"导航-游走":Corpus2Skill把整个语料离线编译成层级化skill目录,agent按摘要往下钻而不是被动等结果,WixQA上全面压过dense retrieval、RAPTOR和agentic RAG。 生产日志本身就是免费蒸馏语料,TRACER用parity...
Newer archives
Older archives