xufeng3的个人博客分享 http://blog.sciencenet.cn/u/xufeng3

博文

2025第4周周报-20250317-20250323

已有 766 次阅读 2025-3-23 17:02 |个人分类:周报|系统分类:科研笔记

1.《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》

image.png

VAR本质上是一种自回归的生成,传统自回归图像生成有两个问题,首先是随着token的增多,生成效率的问题,transformer的平方开销和逐token生成起来会很慢,其次是生成顺序的问题,人为定义的顺序(比如从左到右,从上到下)可能并不是最佳的,也不符合直觉。因此本文提出了一种下一尺度的预测,即每次预测的是下一尺度的图像,最终生成我们想要分辨率的图像。

在生成之前也是采用了传统的做法,先利用VQVAE或VQGAN来进行压缩和离散化,但是传统方法都是讲一张图像压缩成一个中间变量,这里我们需要将一张图像压缩成许多张不同尺度的中间变量。最简单的做法就是将一个中间变量不断下采样。但是作者采用了一种更巧妙的方法,通过不断的下采样和残差来构建不同尺度的中间变量,简单来说,先对编码器的输出特征进行下采样,然后离散化,再查表,对查表得到的向量进行上采样,用编码器输出的特征减去上采样的向量得到残差,然后利用这个残差继续这个操作,最终得到不同尺度的中间变量。然后将不同尺度的中间变量上采样到编码器输出特征的大小,再输入到解码器进行重建。这样就完成了VAE的训练,这一步相当于作者重新训练了一个可以输出不同尺度向量的VQVAE。

image.png

然后就是自回归生成了,即将我们上一步得到的多尺度图像r作为真值,输入的话将上一步的真值上采样即可。然后修改attention内部的mask矩阵,即可完成自回归生成。

image.png

2.《Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis》

image.png



https://wap.sciencenet.cn/blog-3623144-1478944.html


收藏 IP: 210.30.100.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-2 21:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部