4 个月前

基于对象的布局图像生成

基于对象的布局图像生成

摘要

尽管在单对象和单域图像生成方面取得了令人印象深刻的结果,但多对象复杂场景的生成仍然具有挑战性。本文从一个基本观点出发,即模型必须能够理解场景中的各个对象及其之间的关系,才能有效生成复杂的场景。我们提出了一种布局到图像生成方法,称为以对象为中心的生成对抗网络(Object-Centric Generative Adversarial Network,简称OC-GAN),该方法依赖于一种新颖的场景图相似度模块(Scene-Graph Similarity Module,简称SGSM)。SGSM学习场景中对象之间空间关系的表示,从而提高了模型的布局保真度。此外,我们还对生成器的条件机制进行了改进,增强了其对对象实例的感知能力。除了提高图像质量外,我们的贡献还缓解了先前方法中存在的两个问题:(1) 生成没有对应布局边界框的虚假对象;(2) 布局中的重叠边界框导致图像中对象合并。广泛的定量评估和消融研究证明了我们贡献的影响,我们的模型在COCO-Stuff和Visual Genome数据集上均优于之前的最先进方法。最后,我们通过引入SceneFID——一种以对象为中心的Fréchet Inception Distance指标的改编版本——解决了先前工作中评价指标的一个重要局限性,该指标更适合多对象图像。

基准测试

基准方法指标
layout-to-image-generation-on-coco-stuff-2OC-GAN
FID: 29.57
Inception Score: 10.8
layout-to-image-generation-on-coco-stuff-3OC-GAN
FID: 36.31
Inception Score: 14.6
SceneFID: 16.76
layout-to-image-generation-on-coco-stuff-4OC-GAN
FID: 41.65
Inception Score: 17.8
layout-to-image-generation-on-visual-genome-2OC-GAN
FID: 20.27
Inception Score: 9.3
layout-to-image-generation-on-visual-genome-3OC-GAN
FID: 28.26
Inception Score: 12.3
SceneFID: 9.63
layout-to-image-generation-on-visual-genome-4OC-GAN
FID: 40.85
Inception Score: 14.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于对象的布局图像生成 | 论文 | HyperAI超神经