7 个月前

摘要

作为一种特定形式的故事生成任务，图像引导的故事结尾生成（Image-guided Story Ending Generation, IgSEG）是近年来提出的一项新任务，旨在根据给定的多句故事梗概和一个与结尾相关的图像，生成一个恰当的故事结尾。与现有的图像描述任务或故事结尾生成任务不同，IgSEG的目标是生成一个既符合上下文逻辑、又与视觉内容相关联的事实性描述。然而，迄今为止，现有IgSEG方法普遍忽视了多模态信息之间的内在关联，未能对多模态特征进行有效融合。为此，本文提出一种端到端的多模态记忆Transformer框架——多模态记忆Transformer（Multimodal Memory Transformer, MMT），旨在建模并融合上下文与视觉信息，以有效捕捉IgSEG任务中的多模态依赖关系。首先，我们采用模态专用的大规模预训练编码器分别提取文本和视觉特征。其次，引入基于记忆增强的跨模态注意力网络，以学习跨模态间的关联关系，并实现细粒度的特征融合。最后，多模态Transformer解码器在多模态特征间建立注意力机制，捕获故事内部的语义依赖关系，从而生成信息丰富、合理且连贯的故事结尾。在实验部分，大量自动评估结果与人工评估结果表明，所提出的MMT框架在两个基准数据集上均显著优于当前最先进的方法，展现出优越的性能表现。

源 PDF 查看代码