
摘要
密集视频字幕生成的目标是在未剪辑的视频中定位并描述重要事件。现有的方法主要通过利用视觉特征来解决这一任务,而完全忽略了音频轨道。尽管有少数先前的研究尝试结合两种模态,但它们在特定领域的数据集上表现出较差的结果或仅能证明其重要性。本文中,我们引入了双模态Transformer(Bi-modal Transformer),该模型将Transformer架构扩展到双模态输入。我们展示了在密集视频字幕生成任务中,结合音频和视觉模态的所提模型的有效性,然而该模块还能够在任何序列到序列任务中处理任意两种模态。此外,我们还证明了作为双模态Transformer一部分的预训练双模态编码器可以作为简单提案生成模块的特征提取器使用。我们在具有挑战性的ActivityNet Captions数据集上展示了模型的性能,结果表明我们的模型取得了卓越的表现。代码已公开:v-iashin.github.io/bmt
代码仓库
v-iashin/video_features
pytorch
GitHub 中提及
v-iashin/BMT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-video-captioning-on-activitynet | BMT | BLEU-3: 3.84 BLEU-4: 1.88 METEOR: 8.44 |
| temporal-action-proposal-generation-on-1 | BMT | Average F1: 60.27 Average Precision: 48.23 Average Recall: 80.31 |