||
1.《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》
VAR本质上是一种自回归的生成,传统自回归图像生成有两个问题,首先是随着token的增多,生成效率的问题,transformer的平方开销和逐token生成起来会很慢,其次是生成顺序的问题,人为定义的顺序(比如从左到右,从上到下)可能并不是最佳的,也不符合直觉。因此本文提出了一种下一尺度的预测,即每次预测的是下一尺度的图像,最终生成我们想要分辨率的图像。
在生成之前也是采用了传统的做法,先利用VQVAE或VQGAN来进行压缩和离散化,但是传统方法都是讲一张图像压缩成一个中间变量,这里我们需要将一张图像压缩成许多张不同尺度的中间变量。最简单的做法就是将一个中间变量不断下采样。但是作者采用了一种更巧妙的方法,通过不断的下采样和残差来构建不同尺度的中间变量,简单来说,先对编码器的输出特征进行下采样,然后离散化,再查表,对查表得到的向量进行上采样,用编码器输出的特征减去上采样的向量得到残差,然后利用这个残差继续这个操作,最终得到不同尺度的中间变量。然后将不同尺度的中间变量上采样到编码器输出特征的大小,再输入到解码器进行重建。这样就完成了VAE的训练,这一步相当于作者重新训练了一个可以输出不同尺度向量的VQVAE。
然后就是自回归生成了,即将我们上一步得到的多尺度图像r作为真值,输入的话将上一步的真值上采样即可。然后修改attention内部的mask矩阵,即可完成自回归生成。
2.《Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis》
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-5-2 21:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社