'请简洁'砍半token,准确率反涨16分
- 一句"请简洁"就能自蒸馏,Qwen3在MATH-500上token砍半、准确率反涨16分,冗余推理不只浪费算力还主动制造错误
- 策略自己知道哪里会失败——RoboPocket把模型的不确定性AR投射到手机上,让数据采集者针对弱点补演示,效率翻倍
- RAG只看语义不看数据分布,检索到的函数跑不通。 DARE把数据特征编码进检索向量,NDCG@10达93.47%,高出最好的开源模型17分
- 物理仿真做桥梁,视频模型不用学物理。 RealWonder把动作交互拆成仿真+翻译两步,480×832分辨率下13.2FPS实时生成
也值得关注
- SmoothQuant套到多模态LLM踩两个坑 — 视觉和语言token的平滑系数不能共享,跨模态计算不变性不成立。MASQuant按模态分别处理。CVPR。
- 静态benchmark刷榜越来越没意义 — 让模型在预算约束下主动交互获取信息再作答,评的是"会不会提问"而不只是"会不会答题"。
- 1.58-bit BitNet天然适合2:4稀疏剪枝 — 三值权重中零值本身就多,剪枝几乎不损精度,量化和稀疏的叠加效果比预期好得多。
- ViT分类训练后加轻量模块即可大幅提升分割性能 — 不需要重新训练,即插即用。ICLR。
- 181小时真实生活视频,跨天/周/月尺度 — 现有长视频模型在"稀疏事件+长时间跨度"场景下严重失效。
- 用RL训练企业级搜索agent — 覆盖约束搜索、跨文档综合、表格推理等六种场景,比通用LLM agent表现好一截。
- 8.3B参数MoE时间序列基础模型 — 11.5K上下文长度,时间序列基础模型的规模终于跟上了语言模型的节奏。
- 扩散语言模型被散点接受策略拖累 — 用最长稳定前缀解码,连贯性和速度同时提升。ICLR。
- 用知识图谱在长对话中追踪操控性沟通模式 — 识别gaslighting、guilt-tripping等手法,弥补LLM上下文窗口有限的短板。Microsoft。
- 低端设备上做test-time adaptation不需要反向传播 — 纯前向推理优化prompt适配分布偏移。CVPR。
Don't miss what's next. Subscribe to AI论文简报: