Diffusion推理省54%算力不降质
- Diffusion推理砍半算力质量反升,DiffSparse用可学习predictor逐层逐步决定token稀疏率,PixArt-α上省54%计算量,与蒸馏/量化的叠加效果待验证
- 多角色视频的身份混淆根源在位置编码:PoCo从position embedding层面重新设计控制机制,跨镜头一致性和参考保真度均有改善。Sora2也在攻同一方向
- Next-scale AR从图像扩展到动作生成——粗到细的层级生成优于展平一维序列,CVPR接收text-to-motion达到SOTA,且能零样本泛化到编辑任务
也值得关注
- 视觉上下文学习中检索示例的label比图像本身更重要 — prompt工程的重心可能放错了地方。
- 用扩散模型为视频检索生成想象帧 — 弥补文本查询只描述视频片段时的信息不对称。
- 3DGS头发重建从百万级高斯压缩到card clustering — 存储和渲染成本大幅下降。
- 首个大规模像素级X光违禁品分割基准 — 把安检检测从bbox推向精细分割。
Don't miss what's next. Subscribe to AI论文简报: