
摘要
文本到图像的多模态任务(即根据给定的文本描述生成或检索图像)极具挑战性,因为原始文本描述所提供的信息极为有限,难以全面刻画视觉上逼真的图像。为此,我们提出了一种全新的视觉上下文文本表示方法——VICTR(Visual Contextual Text Representation),用于文本到图像的多模态任务。VICTR能够从文本输入中捕捉丰富的视觉语义信息。首先,我们以文本描述作为初始输入,通过依存句法分析提取其句法结构,并分析语义内容,包括对象数量等信息,进而构建场景图(scene graph)。随后,利用图卷积网络(Graph Convolutional Networks, GCN)对场景图中提取出的对象、属性及它们之间的关系,以及相应的几何关系信息进行联合建模,生成融合了文本与视觉语义信息的文本表示。该表示进一步与词级和句级嵌入(word-level and sentence-level embedding)进行融合,从而生成具有视觉上下文感知能力的词级与句级表示。在评估阶段,我们将VICTR集成到当前最先进的文本到图像生成模型中。实验结果表明,VICTR可轻松嵌入现有模型架构,且在定量指标与定性生成效果上均实现了显著提升。
代码仓库
usydnlp/VICTR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-image-generation-on-coco | StackGAN + VICTR | Inception score: 10.38 |
| text-to-image-generation-on-coco | DM-GAN + VICTR | FID: 32.37 Inception score: 32.37 |
| text-to-image-generation-on-coco | AttnGAN + VICTR | FID: 29.26 Inception score: 28.18 |