4 个月前

控制Transformer以实现高分辨率图像合成

控制Transformer以实现高分辨率图像合成

摘要

为了在序列数据中学习长距离交互,变压器(transformers)继续在各种任务上展现出最先进的结果。与卷积神经网络(CNNs)不同,变压器没有任何倾向于局部交互的归纳偏置(inductive bias)。这使得它们具有很强的表达能力,但同时也导致了在处理长序列数据时计算上的不可行性,例如高分辨率图像。我们展示了如何结合CNNs的有效归纳偏置和变压器的强大表达能力,使它们能够建模并生成高分辨率图像。具体来说,我们展示了如何(i)利用CNNs学习图像成分的丰富上下文词汇表,并进而(ii)利用变压器高效地建模这些成分在高分辨率图像中的组合。我们的方法可以轻松应用于条件合成任务,在这些任务中,非空间信息(如对象类别)和空间信息(如分割图)都可以控制生成的图像。特别是,我们首次展示了使用变压器进行语义引导的百万像素图像合成的结果,并在类条件ImageNet数据集上取得了自回归模型中的最佳性能。代码和预训练模型可以在 https://github.com/CompVis/taming-transformers 找到。

代码仓库

joanrod/ocr-vqgan
pytorch
GitHub 中提及
dome272/VQGAN
pytorch
GitHub 中提及
xiaoiker/meta_dpm
pytorch
GitHub 中提及
YvanG/VQGAN-CLIP
pytorch
GitHub 中提及
hyn2028/llm-cxr
pytorch
GitHub 中提及
joh-fischer/PlantLDM
pytorch
GitHub 中提及
samb-t/unleashing-transformers
pytorch
GitHub 中提及
v-iashin/SpecVQGAN
pytorch
GitHub 中提及
dome272/vqgan-pytorch
pytorch
GitHub 中提及
CompVis/taming-transformers
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
deepfake-detection-on-fakeavceleb-1VQGAN
AP: 55.0
ROC AUC: 51.8
image-generation-on-celeba-256x256VQGAN
FID: 10.2
image-generation-on-celeba-hq-256x256VQGAN+Transformer
FID: 10.2
image-generation-on-ffhq-256-x-256VQGAN+Transformer
FID: 9.6
image-generation-on-imagenet-256x256VQGAN+Transformer (k=600, p=1.0, a=0.05)
FID: 5.2
image-generation-on-imagenet-256x256VQGAN+Transformer (k=mixed, p=1.0, a=0.005)
FID: 6.59
image-outpainting-on-lhqcTaming
Block-FID (Right Extend): 22.53
Block-FID (Down Extend): 26.38
Block-FID (Left Extend): -
Block-FID (Up Extend): -
image-reconstruction-on-imagenetTaming-VQGAN (16x16)
FID: 3.64
LPIPS: 0.177
PSNR: 19.93
SSIM: 0.542
image-to-image-translation-on-ade20k-labelsVQGAN+Transformer
FID: 35.5
image-to-image-translation-on-coco-stuffVQGAN+Transformer
FID: 22.4
text-to-image-generation-on-conceptualVQ-GAN
FID: 28.86
text-to-image-generation-on-lhqcTaming
Block-FID: 38.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
控制Transformer以实现高分辨率图像合成 | 论文 | HyperAI超神经