
摘要
为视频生成多句描述是图像字幕任务中最具挑战性的任务之一,因其不仅要求描述内容与视觉信息高度相关,还需保证段落内各句子之间在语篇层面具有良好的连贯性。针对这一目标,我们提出了一种名为记忆增强型循环Transformer(Memory-Augmented Recurrent Transformer, MART)的新方法。该方法通过引入一个记忆模块,对标准Transformer架构进行增强。该记忆模块能够基于视频片段和已生成的句子历史,生成一个高度凝练的记忆状态,从而有效辅助下一句子的预测(尤其在指代关系与重复性控制方面),进而促进生成更具连贯性的段落式字幕。在两个主流数据集ActivityNet Captions和YouCookII上进行的大量实验、人工评估及定性分析表明,相较于基线方法,MART生成的字幕在连贯性方面表现更优,重复性更低,同时仍能保持与输入视频事件的高度相关性。相关代码已开源,地址为:https://github.com/jayleicn/recurrent-transformer。
代码仓库
jayleicn/recurrent-transformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-captioning-on-activitynet-captions | MART (ae-test split) - Appearance + Flow | BLEU4: 10.33 CIDEr: 23.42 METEOR: 15.68 |