
摘要
视频-语言预训练已显著提升了各类下游视频-语言任务的性能。然而,以往大多数方法直接沿用或简单适配图像-语言预训练范式至视频-语言领域,未能充分挖掘视频数据所独有的时序特性。为此,本文提出一种分层时序感知的视频-语言预训练框架——HiTeA(Hierarchical Temporal-Aware),并设计了两项新颖的预训练任务,用于建模视频片段与文本之间的跨模态对齐关系,以及视频-文本对之间的时序关联。具体而言,我们提出了一种跨模态片段探索任务(cross-modal moment exploration task),用于在视频中自动发现并表征关键片段,从而获得更精细的视频片段表示。此外,通过多模态时序关系探索任务,将视频-文本对在不同时间分辨率下整体对齐,有效捕捉其内在时序结构。为进一步评估数据集及预训练模型对时序信息的依赖程度,我们引入了打乱测试(shuffling test)方法。实验结果表明,HiTeA在15个广泛使用的视频-语言理解与生成任务上均取得当前最优性能,尤其在面向时序感知的任务上表现突出,如SSv2-Template与SSv2-Label数据集上分别提升8.6%和11.1%。此外,HiTeA在零样本(zero-shot)迁移至下游任务时也展现出强大的泛化能力。相关模型与演示代码将上线ModelScope平台,供研究社区使用。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-captioning-on-msr-vtt-1 | HiTeA | BLEU-4: 49.2 CIDEr: 65.1 METEOR: 30.7 ROUGE-L: 65.0 |
| video-captioning-on-msvd-1 | HiTeA | BLEU-4: 71.0 CIDEr: 146.9 METEOR: 45.3 ROUGE-L: 81.4 |
| video-question-answering-on-msrvtt-mc | HiTeA | Accuracy: 97.4 |
| video-question-answering-on-next-qa | HiTeA | Accuracy: 63.1 |
| video-retrieval-on-activitynet | HiTeA | text-to-video R@1: 49.7 text-to-video R@10: 86.7 text-to-video R@5: 77.1 |
| video-retrieval-on-didemo | HiTeA | text-to-video R@1: 56.5 text-to-video R@10: 89.7 text-to-video R@5: 81.7 |
| video-retrieval-on-lsmdc | HiTeA | text-to-video R@1: 28.7 text-to-video R@10: 59.0 text-to-video R@5: 50.3 |
| video-retrieval-on-msr-vtt-1ka | HiTeA | text-to-video R@1: 46.8 text-to-video R@10: 81.9 text-to-video R@5: 71.2 |
| video-retrieval-on-ssv2-label-retrieval | HiTeA | text-to-video R@1: 55.2 text-to-video R@10: 81.4 text-to-video R@5: 89.1 |
| video-retrieval-on-ssv2-template-retrieval | HiTeA | text-to-video R@1: 85.6 text-to-video R@10: 100 text-to-video R@5: 100 |
| visual-question-answering-on-msrvtt-qa-1 | HiTeA | Accuracy: 0.459 |
| visual-question-answering-on-msvd-qa-1 | HiTeA | Accuracy: 0.556 |
| visual-question-answering-on-tgif-qa | HiTeA | Accuracy: 0.732 |
| zero-shot-learning-on-msrvtt-qa | HiTeA | Accuracy: 21.7 |
| zero-shot-learning-on-msvd-qa | HiTeA | Accuracy: 37.4 |
| zero-shot-video-retrieval-on-didemo | HiTeA-17M | text-to-video R@1: 43.2 text-to-video R@10: 79.0 text-to-video R@5: 69.3 |
| zero-shot-video-retrieval-on-didemo | HiTeA-5M | text-to-video R@1: 36.1 text-to-video R@10: 70.3 text-to-video R@5: 60.1 |
| zero-shot-video-retrieval-on-lsmdc | HiTeA-17M | text-to-video R@1: 18.3 text-to-video R@10: 44.2 text-to-video R@5: 36.7 |
| zero-shot-video-retrieval-on-lsmdc | HiTeA-5M | text-to-video R@1: 15.5 text-to-video R@10: 39.8 text-to-video R@5: 31.1 |
| zero-shot-video-retrieval-on-msr-vtt | HiTeA-5M | text-to-video R@1: 29.9 text-to-video R@10: 62.9 text-to-video R@5: 54.2 |
| zero-shot-video-retrieval-on-msr-vtt | HiTeA-17M | text-to-video R@1: 34.4 text-to-video R@10: 69.9 text-to-video R@5: 60.0 |