
摘要
密集视频字幕生成研究引起了广泛关注,其目标是自动定位并描述未剪辑视频中的所有事件。一些研究通过将密集视频字幕生成设计为事件定位和事件描述的多任务问题,引入了考虑任务间关系的方法。然而,仅使用视觉输入来解决这两个任务具有挑战性,因为缺乏语义内容。在本研究中,我们提出了一种受人类认知信息处理启发的新框架来应对这一挑战。我们的模型利用外部记忆来整合先验知识。为此,我们提出了一种基于跨模态视频-文本匹配的记忆检索方法。为了有效融合检索到的文本特征,我们设计了一个多功能编码器和一个包含视觉和文本交叉注意力模块的解码器。我们在ActivityNet Captions和YouCook2数据集上进行了对比实验,以展示所提方法的有效性。实验结果表明,即使没有从大规模视频数据集中进行广泛的预训练,我们的模型仍表现出令人鼓舞的性能。
代码仓库
ailab-kyunghee/cm2_dvc
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-video-captioning-on-activitynet | CM² | BLEU4: 2.38 CIDEr: 33.01 F1: 55.21 METEOR: 8.55 Precision: 56.81 Recall: 53.71 SODA: 6.18 |
| dense-video-captioning-on-youcook2 | CM² | BLEU4: 1.63 CIDEr: 31.66 F1: 28.43 METEOR: 6.08 Precision: 33.38 Recall: 24.76 SODA: 5.34 |