0.5概率即逐字背诵，倒放视频测因果


            
        May 31, 2026
    
    
0.5概率即逐字背诵，倒放视频测因果


把LoRA反过来当量尺，量出模型参数化记忆的真实容量：记忆容量服从可提前估算的幂律，token预测概率0.5是逐字背诵的临界线，rank该开多大、何时切全量微调不再靠手感。


统一检索的关键不是接口而是别丢结构：OmniRetrieval用「路由到各源原生引擎」替代「压进共享向量空间」，在309个知识库上跑赢单源baseline，保住了schema和图结构的价值。


把真实视频倒放就成了零成本反事实：YoCausal用倒放视频当违反预期的负样本，测出13个视频扩散模型能感知时间箭头却说不清因果，「生成逼真」和「理解物理」是两回事。


图像agent从「改prompt」转向「自己写代码动笔」：GenClaw让LLM用SVG/HTML/Three.js把构图钉死成可执行草图，再交给生成模型上色，价值在可控性而非画质。


agent护栏堆满「轻量」「实时」，真新意藏在分类法里：AgentDoG 1.5的实质创新是更新后的开放世界agent风险taxonomy，「1k样本追平闭源」的数字要打折看，模型与数据集已开源可自行验证。


也值得关注

全栈开源的实时交互式视频世界模型 — 从数据构建到流式推理整条链路都开放，想自己跑世界模型的人值得看。minWM
把token压缩从prefill后期提前到视觉编码器阶段 — 视频理解的压缩通常发生在prefill后期，这篇直接省掉前面那段浪费。EarlyTom
音视频联合生成的第三条路 — 既不用双塔后对齐也不用三模态全混，给原生的细粒度音画同步一个新解法。Native Audio-Visual Alignment
把文字题渲染成图片喂给VLM，性能就崩了 — 这篇追这种「载体敏感」偏差的来源。LoMo
稠密检索打高分的理由，从embedding层做机制级解释 — 把一直是黑箱的相关性打分讲清楚。Xetrieval
用自演化锚点松开自回归视频对首帧的过度依赖 — 不再被首帧绑死。AdaState
让rewriter和encoder互相迭代共训 — 工具检索里口语化query和技术化API词汇对不上，这篇让两端一起进化。CoHyDE
不靠专用3D编码器、也不靠3D VQA微调，给VLM注入3D空间先验 — 补几何推理短板。Beyond 3D VQAs
生成式4D神经物体运动学 — 让静态3D物体在不同物理条件下生成真实的时序形变。NeuROK
科学假设发现的交互式助手 — 把发散探索和收敛细化两步合到一个工作流里。MOOSE-Copilot

阅读完整版 →
    

                                Don't miss what's next. Subscribe to AI论文简报:
                            
                        
            Email address (required)