0.5概率即逐字背诵,倒放视频测因果
- 把LoRA反过来当量尺,量出模型参数化记忆的真实容量:记忆容量服从可提前估算的幂律,token预测概率0.5是逐字背诵的临界线,rank该开多大、何时切全量微调不再靠手感。
- 统一检索的关键不是接口而是别丢结构:OmniRetrieval用「路由到各源原生引擎」替代「压进共享向量空间」,在309个知识库上跑赢单源baseline,保住了schema和图结构的价值。
- 把真实视频倒放就成了零成本反事实:YoCausal用倒放视频当违反预期的负样本,测出13个视频扩散模型能感知时间箭头却说不清因果,「生成逼真」和「理解物理」是两回事。
- 图像agent从「改prompt」转向「自己写代码动笔」:GenClaw让LLM用SVG/HTML/Three.js把构图钉死成可执行草图,再交给生成模型上色,价值在可控性而非画质。
- agent护栏堆满「轻量」「实时」,真新意藏在分类法里:AgentDoG 1.5的实质创新是更新后的开放世界agent风险taxonomy,「1k样本追平闭源」的数字要打折看,模型与数据集已开源可自行验证。
也值得关注
- 全栈开源的实时交互式视频世界模型 — 从数据构建到流式推理整条链路都开放,想自己跑世界模型的人值得看。minWM
- 把token压缩从prefill后期提前到视觉编码器阶段 — 视频理解的压缩通常发生在prefill后期,这篇直接省掉前面那段浪费。EarlyTom
- 音视频联合生成的第三条路 — 既不用双塔后对齐也不用三模态全混,给原生的细粒度音画同步一个新解法。Native Audio-Visual Alignment
- 把文字题渲染成图片喂给VLM,性能就崩了 — 这篇追这种「载体敏感」偏差的来源。LoMo
- 稠密检索打高分的理由,从embedding层做机制级解释 — 把一直是黑箱的相关性打分讲清楚。Xetrieval
- 用自演化锚点松开自回归视频对首帧的过度依赖 — 不再被首帧绑死。AdaState
- 让rewriter和encoder互相迭代共训 — 工具检索里口语化query和技术化API词汇对不上,这篇让两端一起进化。CoHyDE
- 不靠专用3D编码器、也不靠3D VQA微调,给VLM注入3D空间先验 — 补几何推理短板。Beyond 3D VQAs
- 生成式4D神经物体运动学 — 让静态3D物体在不同物理条件下生成真实的时序形变。NeuROK
- 科学假设发现的交互式助手 — 把发散探索和收敛细化两步合到一个工作流里。MOOSE-Copilot
Don't miss what's next. Subscribe to AI论文简报: