3 个月前

HiTeA:分层时序感知视频-语言预训练

HiTeA:分层时序感知视频-语言预训练

摘要

视频-语言预训练已显著提升了各类下游视频-语言任务的性能。然而,以往大多数方法直接沿用或简单适配图像-语言预训练范式至视频-语言领域,未能充分挖掘视频数据所独有的时序特性。为此,本文提出一种分层时序感知的视频-语言预训练框架——HiTeA(Hierarchical Temporal-Aware),并设计了两项新颖的预训练任务,用于建模视频片段与文本之间的跨模态对齐关系,以及视频-文本对之间的时序关联。具体而言,我们提出了一种跨模态片段探索任务(cross-modal moment exploration task),用于在视频中自动发现并表征关键片段,从而获得更精细的视频片段表示。此外,通过多模态时序关系探索任务,将视频-文本对在不同时间分辨率下整体对齐,有效捕捉其内在时序结构。为进一步评估数据集及预训练模型对时序信息的依赖程度,我们引入了打乱测试(shuffling test)方法。实验结果表明,HiTeA在15个广泛使用的视频-语言理解与生成任务上均取得当前最优性能,尤其在面向时序感知的任务上表现突出,如SSv2-Template与SSv2-Label数据集上分别提升8.6%和11.1%。此外,HiTeA在零样本(zero-shot)迁移至下游任务时也展现出强大的泛化能力。相关模型与演示代码将上线ModelScope平台,供研究社区使用。

基准测试

基准方法指标
video-captioning-on-msr-vtt-1HiTeA
BLEU-4: 49.2
CIDEr: 65.1
METEOR: 30.7
ROUGE-L: 65.0
video-captioning-on-msvd-1HiTeA
BLEU-4: 71.0
CIDEr: 146.9
METEOR: 45.3
ROUGE-L: 81.4
video-question-answering-on-msrvtt-mcHiTeA
Accuracy: 97.4
video-question-answering-on-next-qaHiTeA
Accuracy: 63.1
video-retrieval-on-activitynetHiTeA
text-to-video R@1: 49.7
text-to-video R@10: 86.7
text-to-video R@5: 77.1
video-retrieval-on-didemoHiTeA
text-to-video R@1: 56.5
text-to-video R@10: 89.7
text-to-video R@5: 81.7
video-retrieval-on-lsmdcHiTeA
text-to-video R@1: 28.7
text-to-video R@10: 59.0
text-to-video R@5: 50.3
video-retrieval-on-msr-vtt-1kaHiTeA
text-to-video R@1: 46.8
text-to-video R@10: 81.9
text-to-video R@5: 71.2
video-retrieval-on-ssv2-label-retrievalHiTeA
text-to-video R@1: 55.2
text-to-video R@10: 81.4
text-to-video R@5: 89.1
video-retrieval-on-ssv2-template-retrievalHiTeA
text-to-video R@1: 85.6
text-to-video R@10: 100
text-to-video R@5: 100
visual-question-answering-on-msrvtt-qa-1HiTeA
Accuracy: 0.459
visual-question-answering-on-msvd-qa-1HiTeA
Accuracy: 0.556
visual-question-answering-on-tgif-qaHiTeA
Accuracy: 0.732
zero-shot-learning-on-msrvtt-qaHiTeA
Accuracy: 21.7
zero-shot-learning-on-msvd-qaHiTeA
Accuracy: 37.4
zero-shot-video-retrieval-on-didemoHiTeA-17M
text-to-video R@1: 43.2
text-to-video R@10: 79.0
text-to-video R@5: 69.3
zero-shot-video-retrieval-on-didemoHiTeA-5M
text-to-video R@1: 36.1
text-to-video R@10: 70.3
text-to-video R@5: 60.1
zero-shot-video-retrieval-on-lsmdcHiTeA-17M
text-to-video R@1: 18.3
text-to-video R@10: 44.2
text-to-video R@5: 36.7
zero-shot-video-retrieval-on-lsmdcHiTeA-5M
text-to-video R@1: 15.5
text-to-video R@10: 39.8
text-to-video R@5: 31.1
zero-shot-video-retrieval-on-msr-vttHiTeA-5M
text-to-video R@1: 29.9
text-to-video R@10: 62.9
text-to-video R@5: 54.2
zero-shot-video-retrieval-on-msr-vttHiTeA-17M
text-to-video R@1: 34.4
text-to-video R@10: 69.9
text-to-video R@5: 60.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HiTeA:分层时序感知视频-语言预训练 | 论文 | HyperAI超神经