4 个月前

基于布局的图像生成

基于布局的图像生成

摘要

尽管生成模型在近期取得了显著进展,但生成包含多个复杂物体布局的图像仍然是一个难题。其中的核心挑战包括给定物体可能具有的外观多样性以及由此产生的与指定布局一致的图像集合呈指数级增长。为了解决这些挑战,我们提出了一种基于布局的图像生成新方法,称之为Layout2Im。给定粗略的空间布局(边界框+物体类别),我们的模型可以生成一组具有正确物体且位于期望位置的真实图像。每个物体的表示被解耦为一个指定部分(类别)和一个未指定部分(外观)。类别通过词嵌入进行编码,而外观则被提炼为从正态分布中采样的低维向量。使用卷积LSTM将各个物体表示组合在一起,以获得整个布局的编码,然后将其解码为图像。引入了多个损失项来促进准确且多样的生成。所提出的Layout2Im模型在非常具有挑战性的COCO-Stuff和Visual Genome数据集上显著优于现有最佳方法,分别将最佳报告的Inception分数提高了24.66%和28.57%。大量实验还证明了我们的方法能够生成包含多个物体的复杂且多样的图像。

基准测试

基准方法指标
layout-to-image-generation-on-coco-stuff-2Layout2Im
FID: 38.14
Inception Score: 9.1
layout-to-image-generation-on-visual-genome-2Layout2Im
FID: 31.25
Inception Score: 8.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于布局的图像生成 | 论文 | HyperAI超神经