3 个月前

AOG-LSTM:一种用于视觉叙事的自适应注意力神经网络

AOG-LSTM:一种用于视觉叙事的自适应注意力神经网络

摘要

视觉叙事(Visual storytelling)是指为给定的图像序列生成相关连贯故事的任务,近年来受到广泛关注。然而,当前方法普遍采用通用的循环神经网络(如LSTM和GRU)作为解码器,限制了模型在该任务中的性能表现。其主要原因在于,这些模型无法有效区分不同类型的信息表征。此外,在训练过程中,基于先前真实序列条件化预测后续词的概率,容易在推理阶段引发误差累积问题。同时,现有缓解误差累积的方法通过替换参考词实现,但未充分考虑不同词汇在生成过程中的差异性影响。为解决上述问题,本文分别提出一种改进的神经网络结构——AOG-LSTM,以及一种新型训练策略——ARS(Adaptive Replacement Strategy)。AOG-LSTM能够根据预测不同词语的需要,自适应地对内部不同类型的信息表征分配恰当的关注度。在训练阶段,ARS沿用现有方法的思想,用模型预测结果替换参考句子中的部分词汇,但引入了选择网络与选择策略,以更精准地筛选出适合替换的词汇,从而更有效地提升模型性能。在VIST数据集上的实验结果表明,所提模型在多个常用评价指标上均显著优于多个强基准模型,验证了其有效性与优越性。

基准测试

基准方法指标
visual-storytelling-on-vistAOG + ARS
BLEU-1: 69
BLEU-2: 44
BLEU-3: 23.9
BLEU-4: 12.9
CIDEr: 12.0
METEOR: 36.0
ROUGE-L: 30.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AOG-LSTM:一种用于视觉叙事的自适应注意力神经网络 | 论文 | HyperAI超神经