6 个月前

Drew A. Hudson C. Lawrence Zitnick

摘要

我们提出了一种新型且高效的Transformer架构——GANformer，并将其应用于视觉生成建模任务。该网络采用二分图结构，能够在图像中实现长距离交互，同时保持线性复杂度的计算效率，从而可轻松扩展至高分辨率图像生成。GANformer通过在一组潜在变量与动态演化视觉特征之间迭代传播信息，相互促进彼此的优化，从而支持对象与场景的组合性表征的自发形成。与经典Transformer架构不同，GANformer采用乘法融合机制，能够实现灵活的区域化调制，因此可被视为成功模型StyleGAN的推广与拓展。我们在多种数据集上进行了严谨评估，涵盖模拟的多物体环境以及丰富的真实世界室内与室外场景，结果表明，该模型在图像质量与多样性方面均达到当前最优水平，同时具备快速学习能力与更高的数据利用效率。进一步的定性与定量实验深入揭示了模型内部工作机制，显示出更强的可解释性与更优的表征解耦能力，充分验证了本方法的优势与有效性。模型的开源实现已发布于：https://github.com/dorarad/gansformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Drew A. Hudson C. Lawrence Zitnick

摘要

我们提出了一种新型且高效的Transformer架构——GANformer，并将其应用于视觉生成建模任务。该网络采用二分图结构，能够在图像中实现长距离交互，同时保持线性复杂度的计算效率，从而可轻松扩展至高分辨率图像生成。GANformer通过在一组潜在变量与动态演化视觉特征之间迭代传播信息，相互促进彼此的优化，从而支持对象与场景的组合性表征的自发形成。与经典Transformer架构不同，GANformer采用乘法融合机制，能够实现灵活的区域化调制，因此可被视为成功模型StyleGAN的推广与拓展。我们在多种数据集上进行了严谨评估，涵盖模拟的多物体环境以及丰富的真实世界室内与室外场景，结果表明，该模型在图像质量与多样性方面均达到当前最优水平，同时具备快速学习能力与更高的数据利用效率。进一步的定性与定量实验深入揭示了模型内部工作机制，显示出更强的可解释性与更优的表征解耦能力，充分验证了本方法的优势与有效性。模型的开源实现已发布于：https://github.com/dorarad/gansformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供