3 个月前

SentiStory:一种多层情感感知的生成模型用于视觉叙事

SentiStory:一种多层情感感知的生成模型用于视觉叙事

摘要

视觉叙事(Visual Storytelling, VIST)任务旨在以图像序列作为输入,生成合理、类人且连贯的故事情节。尽管已有多种深度学习模型取得了令人瞩目的成果,但大多数方法并未直接利用故事中的情感信息。为此,本文提出一种面向VIST任务的情感感知生成模型——SentiStory。SentiStory的核心是一个多层情感提取模块(Multi-layered Sentiment Extraction Module, MLSEM)。对于给定的图像序列,MLSEM的高层能够提取出粗粒度但准确的情感信息,而低层则提取细粒度但通常可靠性较低的情感特征。通过策略性地融合这两层信息,SentiStory能够生成更为连贯且富含情感内涵的视觉叙事概念。自动评估与人工评估结果均表明,借助MLSEM,SentiStory在生成更连贯、更具人类自然感的故事方面取得了显著提升。

基准测试

基准方法指标
visual-storytelling-on-vistSentiStory
BLEU-1: 65.5
BLEU-2: 40.7
BLEU-3: 24.1
BLEU-4: 14.8
CIDEr: 10.1
METEOR: 35.7
ROUGE-L: 30.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SentiStory:一种多层情感感知的生成模型用于视觉叙事 | 论文 | HyperAI超神经