3 个月前

MMT:基于多模态记忆Transformer的图像引导故事结尾生成

MMT:基于多模态记忆Transformer的图像引导故事结尾生成

摘要

作为一种特定形式的故事生成任务,图像引导的故事结尾生成(Image-guided Story Ending Generation, IgSEG)是近年来提出的一项新任务,旨在根据给定的多句故事梗概和一个与结尾相关的图像,生成一个恰当的故事结尾。与现有的图像描述任务或故事结尾生成任务不同,IgSEG的目标是生成一个既符合上下文逻辑、又与视觉内容相关联的事实性描述。然而,迄今为止,现有IgSEG方法普遍忽视了多模态信息之间的内在关联,未能对多模态特征进行有效融合。为此,本文提出一种端到端的多模态记忆Transformer框架——多模态记忆Transformer(Multimodal Memory Transformer, MMT),旨在建模并融合上下文与视觉信息,以有效捕捉IgSEG任务中的多模态依赖关系。首先,我们采用模态专用的大规模预训练编码器分别提取文本和视觉特征。其次,引入基于记忆增强的跨模态注意力网络,以学习跨模态间的关联关系,并实现细粒度的特征融合。最后,多模态Transformer解码器在多模态特征间建立注意力机制,捕获故事内部的语义依赖关系,从而生成信息丰富、合理且连贯的故事结尾。在实验部分,大量自动评估结果与人工评估结果表明,所提出的MMT框架在两个基准数据集上均显著优于当前最先进的方法,展现出优越的性能表现。

基准测试

基准方法指标
image-guided-story-ending-generation-on-lsmdcMMT
BLEU-1: 18.52
BLEU-2: 5.99
BLEU-3: 2.51
BLEU-4: 1.13
CIDEr: 12.41
METEOR: 12.87
ROUGE-L: 20.99
image-guided-story-ending-generation-on-vistMMT
BLEU-1: 22.87
BLEU-2: 8.68
BLEU-3: 4.38
BLEU-4: 2.61
CIDEr: 25.41
METEOR: 15.55
ROUGE-L: 23.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MMT:基于多模态记忆Transformer的图像引导故事结尾生成 | 论文 | HyperAI超神经