3 个月前

AOG-LSTM：一种用于视觉叙事的自适应注意力神经网络

{and Wei Wu Rui Xie Hui Wang Yong Jiang Hai-Tao Zheng Wei Wang Chia-Hao Chang Jiacheng Yang Hanqing Liu}

摘要

视觉叙事（Visual storytelling）是指为给定的图像序列生成相关连贯故事的任务，近年来受到广泛关注。然而，当前方法普遍采用通用的循环神经网络（如LSTM和GRU）作为解码器，限制了模型在该任务中的性能表现。其主要原因在于，这些模型无法有效区分不同类型的信息表征。此外，在训练过程中，基于先前真实序列条件化预测后续词的概率，容易在推理阶段引发误差累积问题。同时，现有缓解误差累积的方法通过替换参考词实现，但未充分考虑不同词汇在生成过程中的差异性影响。为解决上述问题，本文分别提出一种改进的神经网络结构——AOG-LSTM，以及一种新型训练策略——ARS（Adaptive Replacement Strategy）。AOG-LSTM能够根据预测不同词语的需要，自适应地对内部不同类型的信息表征分配恰当的关注度。在训练阶段，ARS沿用现有方法的思想，用模型预测结果替换参考句子中的部分词汇，但引入了选择网络与选择策略，以更精准地筛选出适合替换的词汇，从而更有效地提升模型性能。在VIST数据集上的实验结果表明，所提模型在多个常用评价指标上均显著优于多个强基准模型，验证了其有效性与优越性。

基准测试

基准	方法	指标
visual-storytelling-on-vist	AOG + ARS	BLEU-1: 69 BLEU-2: 44 BLEU-3: 23.9 BLEU-4: 12.9 CIDEr: 12.0 METEOR: 36.0 ROUGE-L: 30.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供