8 个月前

卷积神经网络

计算机视觉

Esser Patrick ; Rombach Robin ; Ommer Björn

摘要

为了在序列数据中学习长距离交互， Transformer （transformers）继续在各种任务上展现出最先进的结果。与卷积神经网络（CNNs）不同， Transformer 没有任何倾向于局部交互的归纳偏置（inductive bias）。这使得它们具有很强的表达能力，但同时也导致了在处理长序列数据时计算上的不可行性，例如高分辨率图像。我们展示了如何结合CNNs的有效归纳偏置和 Transformer 的强大表达能力，使它们能够建模并生成高分辨率图像。具体来说，我们展示了如何（i）利用CNNs学习图像成分的丰富上下文词汇表，并进而（ii）利用 Transformer 高效地建模这些成分在高分辨率图像中的组合。我们的方法可以轻松应用于条件合成任务，在这些任务中，非空间信息（如对象类别）和空间信息（如分割图）都可以控制生成的图像。特别是，我们首次展示了使用 Transformer 进行语义引导的百万像素图像合成的结果，并在类条件ImageNet数据集上取得了自回归模型中的最佳性能。代码和预训练模型可以在 https://github.com/CompVis/taming-transformers 找到。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Esser Patrick ; Rombach Robin ; Ommer Björn

摘要

为了在序列数据中学习长距离交互， Transformer （transformers）继续在各种任务上展现出最先进的结果。与卷积神经网络（CNNs）不同， Transformer 没有任何倾向于局部交互的归纳偏置（inductive bias）。这使得它们具有很强的表达能力，但同时也导致了在处理长序列数据时计算上的不可行性，例如高分辨率图像。我们展示了如何结合CNNs的有效归纳偏置和 Transformer 的强大表达能力，使它们能够建模并生成高分辨率图像。具体来说，我们展示了如何（i）利用CNNs学习图像成分的丰富上下文词汇表，并进而（ii）利用 Transformer 高效地建模这些成分在高分辨率图像中的组合。我们的方法可以轻松应用于条件合成任务，在这些任务中，非空间信息（如对象类别）和空间信息（如分割图）都可以控制生成的图像。特别是，我们首次展示了使用 Transformer 进行语义引导的百万像素图像合成的结果，并在类条件ImageNet数据集上取得了自回归模型中的最佳性能。代码和预训练模型可以在 https://github.com/CompVis/taming-transformers 找到。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

控制Transformer以实现高分辨率图像合成 | 论文 | HyperAI超神经