
摘要
为了在序列数据中学习长距离交互,变压器(transformers)继续在各种任务上展现出最先进的结果。与卷积神经网络(CNNs)不同,变压器没有任何倾向于局部交互的归纳偏置(inductive bias)。这使得它们具有很强的表达能力,但同时也导致了在处理长序列数据时计算上的不可行性,例如高分辨率图像。我们展示了如何结合CNNs的有效归纳偏置和变压器的强大表达能力,使它们能够建模并生成高分辨率图像。具体来说,我们展示了如何(i)利用CNNs学习图像成分的丰富上下文词汇表,并进而(ii)利用变压器高效地建模这些成分在高分辨率图像中的组合。我们的方法可以轻松应用于条件合成任务,在这些任务中,非空间信息(如对象类别)和空间信息(如分割图)都可以控制生成的图像。特别是,我们首次展示了使用变压器进行语义引导的百万像素图像合成的结果,并在类条件ImageNet数据集上取得了自回归模型中的最佳性能。代码和预训练模型可以在 https://github.com/CompVis/taming-transformers 找到。
代码仓库
joanrod/ocr-vqgan
pytorch
GitHub 中提及
dome272/VQGAN
pytorch
GitHub 中提及
xiaoiker/meta_dpm
pytorch
GitHub 中提及
YvanG/VQGAN-CLIP
pytorch
GitHub 中提及
hyn2028/llm-cxr
pytorch
GitHub 中提及
tgisaturday/taming-transformers-tpu
jax
GitHub 中提及
joh-fischer/PlantLDM
pytorch
GitHub 中提及
samb-t/unleashing-transformers
pytorch
GitHub 中提及
v-iashin/SpecVQGAN
pytorch
GitHub 中提及
dome272/vqgan-pytorch
pytorch
GitHub 中提及
CompVis/taming-transformers
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| deepfake-detection-on-fakeavceleb-1 | VQGAN | AP: 55.0 ROC AUC: 51.8 |
| image-generation-on-celeba-256x256 | VQGAN | FID: 10.2 |
| image-generation-on-celeba-hq-256x256 | VQGAN+Transformer | FID: 10.2 |
| image-generation-on-ffhq-256-x-256 | VQGAN+Transformer | FID: 9.6 |
| image-generation-on-imagenet-256x256 | VQGAN+Transformer (k=600, p=1.0, a=0.05) | FID: 5.2 |
| image-generation-on-imagenet-256x256 | VQGAN+Transformer (k=mixed, p=1.0, a=0.005) | FID: 6.59 |
| image-outpainting-on-lhqc | Taming | Block-FID (Right Extend): 22.53 Block-FID (Down Extend): 26.38 Block-FID (Left Extend): - Block-FID (Up Extend): - |
| image-reconstruction-on-imagenet | Taming-VQGAN (16x16) | FID: 3.64 LPIPS: 0.177 PSNR: 19.93 SSIM: 0.542 |
| image-to-image-translation-on-ade20k-labels | VQGAN+Transformer | FID: 35.5 |
| image-to-image-translation-on-coco-stuff | VQGAN+Transformer | FID: 22.4 |
| text-to-image-generation-on-conceptual | VQ-GAN | FID: 28.86 |
| text-to-image-generation-on-lhqc | Taming | Block-FID: 38.89 |