
摘要
对比学习已被广泛应用于基于Transformer的视觉-语言模型训练中,以实现视频与文本的对齐以及多模态表征学习。本文提出了一种名为Token-Aware级联对比学习(Token-Aware Cascade contrastive learning, TACo)的新算法,通过引入两种创新技术来提升对比学习的效果。首先,提出词元感知对比损失(token-aware contrastive loss),该损失在计算过程中考虑了文本中词语的句法类别。这一设计的动机源于观察发现:在视频-文本配对中,表示具体语义内容的词汇(如名词和动词)相较于功能词(如介词、连词)更有可能与视频中的视觉内容形成有效对齐。其次,采用一种级联采样方法(cascade sampling method),用于高效生成一组少量但具有挑战性的负样本,以支持多模态融合层的损失估计。为验证TACo的有效性,我们在一系列下游任务上对预训练模型进行了微调,包括文本-视频检索(YouCook2、MSR-VTT和ActivityNet)、视频动作步骤定位(CrossTask)以及视频动作分割(COIN)。实验结果表明,相较于先前方法,我们的模型在不同实验设置下均实现了稳定且一致的性能提升,并在YouCook2、MSR-VTT和ActivityNet三个公开的文本-视频检索基准上取得了新的最先进(state-of-the-art)水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-coin | TACo | Frame accuracy: 68.4 |
| temporal-action-localization-on-crosstask | TACo | Recall: 42.5 |
| video-retrieval-on-activitynet | TACo | text-to-video Median Rank: 3.0 text-to-video R@1: 30.4 text-to-video R@5: 61.2 text-to-video R@50: 93.4 |
| video-retrieval-on-msr-vtt | TACo | text-to-video Median Rank: 5 text-to-video R@1: 24.8 text-to-video R@10: 64.0 text-to-video R@5: 52.1 |
| video-retrieval-on-msr-vtt-1ka | TACo | text-to-video Median Rank: 4 text-to-video R@1: 28.4 text-to-video R@10: 71.2 text-to-video R@5: 57.8 |
| video-retrieval-on-youcook2 | TACo | text-to-video Median Rank: 4 text-to-video R@1: 29.6 text-to-video R@10: 72.7 text-to-video R@5: 59.7 |
| zero-shot-video-retrieval-on-msr-vtt | TACo | text-to-video R@1: 9.8 text-to-video R@10: 33.4 text-to-video R@5: 25.0 |
| zero-shot-video-retrieval-on-youcook2 | TACo | text-to-video Mean Rank: 8 text-to-video R@1: 19.9 text-to-video R@10: 55.7 text-to-video R@5: 43.2 |