AI论文简报
Archives
Search...
Log in
Subscribe
LLM做视觉编码器,2B模型反超大模型
March 9, 2026
用LLM替代CLIP初始化视觉编码器,2B小模型多项反超大模型,对比学习的粗粒度目标与VLM细粒度需求存在根本错配,换起点比加参数更有效。 跳过搜索直接用block统计定位稀疏注意力:256K序列27倍加速,4K短序列仍有1.7倍提升。已开源代码。...
'请简洁'砍半token,准确率反涨16分
March 7, 2026
一句"请简洁"就能自蒸馏,Qwen3在MATH-500上token砍半、准确率反涨16分,冗余推理不只浪费算力还主动制造错误 策略自己知道哪里会失败——RoboPocket把模型的不确定性AR投射到手机上,让数据采集者针对弱点补演示,效率翻倍 RAG只看语义不看数据分布,检索到的函数跑不通。...
code agent跨仓库不到45%
March 5, 2026
Code agent出了单仓库就不灵,BeyondSWE四维度500实例评测,最强模型成功率不到45%,加搜索也帮不上忙 合作训练、独立部署:HACRL让异构agent共享验证rollout互相补课。采样成本减半,推理时零额外开销...
Lottie动画直接生成,DPO自带防遗忘
March 4, 2026
AI生成动画首次直接输出可编辑工程文件,OmniLottie把Lottie的冗长JSON压缩成参数化token序列,让视觉语言模型直接生成带关键帧和缓动曲线的矢量动画,省去格式转换环节。CVPR接收,200万动画数据集已开源...
9K样本逼近R1,RL提升大半归SFT
March 3, 2026
9K精选样本训出逼近DeepSeek-R1的4B推理模型,CHIMERA证明推理训练的真正瓶颈在数据的领域覆盖和筛选质量,不在规模 Attention steering第一次能进生产部署:SEKA在频域编辑key embedding绕开FlashAttention兼容性限制,训练免、延迟可忽略。ICLR接收...
谱条件统一μP缩放,数据筛选也泄露隐私
March 3, 2026
谱条件统一了μP的宽度-深度联合缩放,不再需要逐架构逐优化器单独推导超参数迁移规则,附带代码实现。 数据筛选过程本身就泄露成员信息:Anthropic研究表明,即使模型只在公开数据上训练,攻击者仍可推断原始数据集的组成。 VLM让灵巧手听懂自然语言指令。UniHM用统一tokenizer跨手型泛化,只需人-...
砍掉90%视觉token性能不掉
March 2, 2026
空间关系可以从"碰运气"变成可优化的目标,SpatialScore用reward model给生成模型装上空间理解信号,专用小模型空间评估超过GPT-4V。CVPR接收,数据集开源 Masked图像生成4倍加速且质量不掉:用动力学建模替代静态缓存,把离散采样丢掉的语义信息学回来...
Latent推理靠的不是推理
February 28, 2026
Latent推理的性能提升来自副作用而非推理本身,因果中介分析显示latent token与输入输出之间存在因果断裂,用文本做显式想象的简单方案反而更优 Deep research agent砍掉七成推理步骤反而更准:并行证据采集替代串行推理链,搜索广度比推理深度更值得投入...
三模态从零训练,Agent RL稳定性破局
February 27, 2026
Apple从零预训三模态masked diffusion模型,系统性测试了scaling law、模态混合和噪声调度,对做多模态扩散的团队直接可参考。masked diffusion正在成为自回归之外的可选路线 Agentic RL训练collapse有了系统性诊断框架:ARLArena把policy...
TTT就是线性注意力,Terminal Agent数据配方开源
February 26, 2026
TTT架构被证明等价于线性注意力算子,NVIDIA团队的形式化证明将两个独立研究社区的技术积累打通,高效序列建模的设计空间大幅缩减 终端Agent的训练数据工程首次系统公开:从种子任务生成到技能组合、训练策略对比,全套数据集和模型权重开源。8B模型准确率从2.5%跳到13.0%...
Agent红队11种失败模式,step级路由降本700倍
February 26, 2026
20人红队测试揭示Agent部署盲区,真实环境中记忆污染、工具链级联、多Agent串谋等11类失败模式远超沙箱评测覆盖范围。最危险的是Agent自报"任务完成"但底层状态已出错 视频推理终于有了百万级benchmark:VBVR用规则化评分替代模型打分,把视频模型评估从"画质"拉向"时空因果理解",404个HF...
token概率直接当reward,零样本达0.95相关性
February 25, 2026
LLM内部构建kernel行为的"世界模型"来规划优化路径,MoE等复杂kernel上比进化搜索快14倍,把算子调优从随机试错变成有规划的探索 VLM的token概率直接提取reward信号:预训练模型的logits里编码了任务进展信息,130+真实机器人任务上zero-shot相关性达0.947...
74%的agent协调可能是白费的
February 24, 2026
企业工作流中74%的任务不需要agent间协调,单调性分析提供了形式化判据:子结果合并不会变差的任务可以完全并行,省掉全部编排开销。 多个AI分析师对同一数据的结论频繁矛盾——分歧不是噪声而是结构性的,prompt措辞和模型选择已经预先给结论染了色。...
模型压缩的几何直觉:折叠比剪枝更优
February 23, 2026
模型压缩不一定要剪枝,ICLR 2026的理论和实验表明weight folding(低秩投影)在大多数压缩率下重建误差更小。 视频生成模型开始真正响应人的肢体动作。手指级别的控制精度让XR场景变得可交互,不再只是看。 VR对话Agent终于能看着你说话了:SARAH实时生成空间感知的全身动作,300...
DiT动态patch快3倍,Mamba减法逼近softmax
February 22, 2026
Latent diffusion的两步训练可以统一为一步,encoder输出噪声与diffusion噪声level对齐后训练效率更高,ImageNet-512达到FID 1.4。 DiT去噪不需要全程最细粒度:DDiT按内容复杂度动态调整patch大小,即插即用加速3.5倍且质量无损。...
Agent从80分涨到90分,失败模式没变
February 20, 2026
Agent准确率从80涨到90,失败模式几乎没变。 14个模型实测显示,能力提升并未带来可靠性同步改善,从demo到production的决策应看失败条件而非平均分 VLM+仿真RL绕过示教数据瓶颈: HERO让人形机器人零样本操控从未见过的物体,末端跟踪误差降低3.2倍 Fast...
示例图对替代prompt,Agent筛信息暗藏偏心
February 20, 2026
智谱GLM-5开源,核心架构声称尚待验证,DSA同时宣称降成本、保长上下文、提推理能力——三个通常互相矛盾的目标,等社区复现比看官方benchmark更实在。 LLM Agent筛选信息时系统性偏向特定来源:CMU对12个模型的控制实验发现,来源偏好有时压过内容相关性,显式提示「保持中立」也无法消除。...
频谱衰减让W4A4量化回升7%精度
February 19, 2026
预训练越充分,量化反而越脆弱:Amazon发现激活异常点严重程度与预训练规模正相关,S2D通过频谱衰减在训练阶段修复根因,W4A4精度最高回升7% 精心挑选fine-tuning数据的大部分技巧没用,Microsoft Research系统拆解后发现只有梯度表示跨任务稳定有效,数据量充足时精选与随机几乎无差...
二进制token让图像生成快30倍,RL训练也在学会反思
February 18, 2026
二进制token取代codebook索引,BitDance用260M参数打平1.4B模型的图像生成质量,推理快8.7倍,1024分辨率快30倍以上 RL训练的反馈太稀疏模型学不动?ERL让模型先反思失败再强化成功,复杂环境提升最高达81%...
Web Agent在线RL突破70%,奖励模型换个方向思考就行
February 17, 2026
Web导航Agent在线学习终于跑通了,OpAgent在WebArena上达到71.6%成功率,比之前所有单体模型翻倍 奖励模型不一定要"正着判"。FLIP反过来推断指令,小模型比LLM-as-Judge强79.6% RL不止能训生成模型,也能训embedding模型的推理链,Embed-...
Newer archives
Older archives