4 个月前

基于上下文的布局到图像生成技术,增强对象外观

基于上下文的布局到图像生成技术,增强对象外观

摘要

布局到图像(L2I)生成模型旨在根据给定的布局生成包含多个物体(things)且背景为自然场景(stuff)的复杂图像。基于近期在生成对抗网络(GANs)方面的进展,现有的L2I模型已经取得了显著的进步。然而,仔细检查这些模型生成的图像可以发现两个主要限制:(1) 物体之间的关系以及物体与背景的关系经常被破坏;(2) 每个物体的外观通常会失真,缺乏该物体类别所特有的关键定义特征。我们认为,这些问题是由生成器中缺乏上下文感知的物体和背景特征编码以及判别器中缺乏位置敏感的外观表示所引起的。为了克服这些限制,本文提出了两个新的模块。首先,在生成器中引入了一个上下文感知特征转换模块,以确保生成的物体或背景特征编码能够意识到场景中其他共存的物体/背景。其次,我们没有向判别器输入位置不敏感的图像特征,而是使用从生成物体图像的特征图计算得到的Gram矩阵来保留位置敏感的信息,从而大大提升了物体的外观质量。大量实验表明,所提出的方法在COCO-Thing-Stuff和Visual Genome基准测试中达到了最先进的性能。

代码仓库

wtliao/layout2img
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
layout-to-image-generation-on-coco-stuff-3CAL2IM
FID: 22.32
Inception Score: 15.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于上下文的布局到图像生成技术,增强对象外观 | 论文 | HyperAI超神经