3 个月前

VICTR:用于文本到图像多模态任务的视觉信息捕获文本表示

VICTR:用于文本到图像多模态任务的视觉信息捕获文本表示

摘要

文本到图像的多模态任务(即根据给定的文本描述生成或检索图像)极具挑战性,因为原始文本描述所提供的信息极为有限,难以全面刻画视觉上逼真的图像。为此,我们提出了一种全新的视觉上下文文本表示方法——VICTR(Visual Contextual Text Representation),用于文本到图像的多模态任务。VICTR能够从文本输入中捕捉丰富的视觉语义信息。首先,我们以文本描述作为初始输入,通过依存句法分析提取其句法结构,并分析语义内容,包括对象数量等信息,进而构建场景图(scene graph)。随后,利用图卷积网络(Graph Convolutional Networks, GCN)对场景图中提取出的对象、属性及它们之间的关系,以及相应的几何关系信息进行联合建模,生成融合了文本与视觉语义信息的文本表示。该表示进一步与词级和句级嵌入(word-level and sentence-level embedding)进行融合,从而生成具有视觉上下文感知能力的词级与句级表示。在评估阶段,我们将VICTR集成到当前最先进的文本到图像生成模型中。实验结果表明,VICTR可轻松嵌入现有模型架构,且在定量指标与定性生成效果上均实现了显著提升。

代码仓库

usydnlp/VICTR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cocoStackGAN + VICTR
Inception score: 10.38
text-to-image-generation-on-cocoDM-GAN + VICTR
FID: 32.37
Inception score: 32.37
text-to-image-generation-on-cocoAttnGAN + VICTR
FID: 29.26
Inception score: 28.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VICTR:用于文本到图像多模态任务的视觉信息捕获文本表示 | 论文 | HyperAI超神经