DeltaNet拆双门,Maestro压GPT-5
- linear attention的瓶颈不是速度而是state编辑粒度——Gated DeltaNet-2把scalar gate拆成channel-wise的擦除与写入双门,在Mamba-2、KDA、Mamba-3之中拿到最强综合表现,长上下文检索任务上提升最显著。
- 表格agent正式进入RL训练阶段:Spreadsheet-RL搭多轮沙箱训出来的Qwen3-4B在SpreadsheetBench上Pass@1从12%翻到23.4%,但复杂任务的绝对值离生产还差距离。
- reasoning的载体可以不是文本,LatentOmni让audio-visual推理在unified latent space里穿插音视频状态而不压成离散token,绕开CoT被语言先验拽走的老问题。
- 4B编排器在十个benchmark上压过GPT-5和Gemini-2.5-Pro——Maestro用outcome-based RL学怎么调度frozen专家,层级稀疏reward的训练稳定性abstract却回避了。
也值得关注
- 公交规划用13M条换乘记录做continual pretraining,绕开routing engine — TransitLM正面测试结构化任务能不能用纯预训练替代专用系统,而不是又一个RAG增强。arxiv
- MLLM给人物视频打Big Five,要求用具体行为ground评分 — 把"感知"和"刻板印象"拆开评测,methodology对其他主观判断类任务也有参考价值。arxiv
- CUSP用cutoff前知识预测cutoff后真实发生的科学进展 — 跨学科event-level评估,比起"AI能写论文吗",这个问法更接近forecasting的本意。arxiv
- Sensor2Sensor把dashcam视频转换到AV车队的sensor配置接入ADS训练 — 让long-tail覆盖从数据采集问题转成sensor转换问题。arxiv
- SpaceDG给空间推理benchmark加上motion blur、低光、压缩artifacts — 现有benchmark几乎都假设视觉输入干净,加degradation后可能显著拉低当前SOTA成绩。arxiv
- SceneAligner把"you are here"扩展到真实大楼的raster floorplan定位 — 过去方法默认vector floorplan和小尺度环境,这篇把场景放到真实公共建筑里。arxiv
Don't miss what's next. Subscribe to AI论文简报: