4 个月前

基于跨模态规则的信息可视化叙事

Jiacheng Li; Haizhou Shi; Siliang Tang; Fei Wu; Yueting Zhuang

摘要

现有的视觉叙事方法通常存在生成泛化描述的问题，而图像中包含的许多有意义的内容却未被注意到。信息丰富的故事生成失败可以归结为模型未能捕捉到足够的有意义概念。这些概念的类别包括实体、属性、动作和事件，在某些情况下对基于图像的叙事至关重要。为了解决这一问题，我们提出了一种方法，通过挖掘跨模态规则来帮助模型在给定视觉输入时推断出这些信息丰富的概念。首先，我们将卷积神经网络（CNN）激活与词索引连接起来构建多模态事务。然后，我们使用关联规则挖掘算法来挖掘跨模态规则，这些规则将用于概念推理。借助跨模态规则的帮助，生成的故事更加具体且信息丰富。此外，我们提出的方法具有可解释性、扩展性和迁移性的优势，表明其具有更广泛的应用潜力。最后，我们在带有注意力机制的编码器-解码器框架中利用了这些概念。我们在视觉叙事（VIST）数据集上进行了多项实验，结果表明我们的方法在自动评估指标和人工评价方面均有效。此外，还进行了额外的实验，证明了我们挖掘的跨模态规则作为附加知识有助于模型在小数据集上训练时获得更好的性能。

代码仓库

passerby233/VSCMR-Visual-Storytelling-with-Corss-Modal-Rules

官方

基准测试

基准	方法	指标
visual-storytelling-on-vist	VSCMR	BLEU-1: 63.8 BLEU-4: 14.3 CIDEr: 9 METEOR: 35.5 ROUGE-L: 30.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供