'请简洁'砍半token，准确率反涨16分


            
        March 7, 2026
    
    
'请简洁'砍半token，准确率反涨16分


一句"请简洁"就能自蒸馏，Qwen3在MATH-500上token砍半、准确率反涨16分，冗余推理不只浪费算力还主动制造错误


策略自己知道哪里会失败——RoboPocket把模型的不确定性AR投射到手机上，让数据采集者针对弱点补演示，效率翻倍


RAG只看语义不看数据分布，检索到的函数跑不通。 DARE把数据特征编码进检索向量，NDCG@10达93.47%，高出最好的开源模型17分


物理仿真做桥梁，视频模型不用学物理。 RealWonder把动作交互拆成仿真+翻译两步，480×832分辨率下13.2FPS实时生成


也值得关注

SmoothQuant套到多模态LLM踩两个坑 — 视觉和语言token的平滑系数不能共享，跨模态计算不变性不成立。MASQuant按模态分别处理。CVPR。
静态benchmark刷榜越来越没意义 — 让模型在预算约束下主动交互获取信息再作答，评的是"会不会提问"而不只是"会不会答题"。
1.58-bit BitNet天然适合2:4稀疏剪枝 — 三值权重中零值本身就多，剪枝几乎不损精度，量化和稀疏的叠加效果比预期好得多。
ViT分类训练后加轻量模块即可大幅提升分割性能 — 不需要重新训练，即插即用。ICLR。
181小时真实生活视频，跨天/周/月尺度 — 现有长视频模型在"稀疏事件+长时间跨度"场景下严重失效。
用RL训练企业级搜索agent — 覆盖约束搜索、跨文档综合、表格推理等六种场景，比通用LLM agent表现好一截。
8.3B参数MoE时间序列基础模型 — 11.5K上下文长度，时间序列基础模型的规模终于跟上了语言模型的节奏。
扩散语言模型被散点接受策略拖累 — 用最长稳定前缀解码，连贯性和速度同时提升。ICLR。
用知识图谱在长对话中追踪操控性沟通模式 — 识别gaslighting、guilt-tripping等手法，弥补LLM上下文窗口有限的短板。Microsoft。
低端设备上做test-time adaptation不需要反向传播 — 纯前向推理优化prompt适配分布偏移。CVPR。

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)