
摘要
现有的视觉叙事方法通常存在生成泛化描述的问题,而图像中包含的许多有意义的内容却未被注意到。信息丰富的故事生成失败可以归结为模型未能捕捉到足够的有意义概念。这些概念的类别包括实体、属性、动作和事件,在某些情况下对基于图像的叙事至关重要。为了解决这一问题,我们提出了一种方法,通过挖掘跨模态规则来帮助模型在给定视觉输入时推断出这些信息丰富的概念。首先,我们将卷积神经网络(CNN)激活与词索引连接起来构建多模态事务。然后,我们使用关联规则挖掘算法来挖掘跨模态规则,这些规则将用于概念推理。借助跨模态规则的帮助,生成的故事更加具体且信息丰富。此外,我们提出的方法具有可解释性、扩展性和迁移性的优势,表明其具有更广泛的应用潜力。最后,我们在带有注意力机制的编码器-解码器框架中利用了这些概念。我们在视觉叙事(VIST)数据集上进行了多项实验,结果表明我们的方法在自动评估指标和人工评价方面均有效。此外,还进行了额外的实验,证明了我们挖掘的跨模态规则作为附加知识有助于模型在小数据集上训练时获得更好的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-storytelling-on-vist | VSCMR | BLEU-1: 63.8 BLEU-4: 14.3 CIDEr: 9 METEOR: 35.5 ROUGE-L: 30.2 |