博文

2025第4周周报-20250317-20250323

已有 1162 次阅读 2025-3-23 17:02 |个人分类:周报|系统分类:科研笔记

1.《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》

VAR本质上是一种自回归的生成，传统自回归图像生成有两个问题，首先是随着token的增多，生成效率的问题，transformer的平方开销和逐token生成起来会很慢，其次是生成顺序的问题，人为定义的顺序（比如从左到右，从上到下）可能并不是最佳的，也不符合直觉。因此本文提出了一种下一尺度的预测，即每次预测的是下一尺度的图像，最终生成我们想要分辨率的图像。

在生成之前也是采用了传统的做法，先利用VQVAE或VQGAN来进行压缩和离散化，但是传统方法都是讲一张图像压缩成一个中间变量，这里我们需要将一张图像压缩成许多张不同尺度的中间变量。最简单的做法就是将一个中间变量不断下采样。但是作者采用了一种更巧妙的方法，通过不断的下采样和残差来构建不同尺度的中间变量，简单来说，先对编码器的输出特征进行下采样，然后离散化，再查表，对查表得到的向量进行上采样，用编码器输出的特征减去上采样的向量得到残差，然后利用这个残差继续这个操作，最终得到不同尺度的中间变量。然后将不同尺度的中间变量上采样到编码器输出特征的大小，再输入到解码器进行重建。这样就完成了VAE的训练，这一步相当于作者重新训练了一个可以输出不同尺度向量的VQVAE。