
摘要
基于对比学习的视频-语言表征学习方法(如CLIP)已取得卓越性能,其核心思想在于对预定义的视频-文本配对进行语义层面的交互建模。然而,要清晰揭示这种粗粒度的全局交互机制并进一步推进,必须面对细粒度跨模态学习中极具挑战性的“壳层突破”式交互问题。本文创造性地将视频与文本建模为多变量合作博弈中的参与者,借助合作博弈论,灵活应对细粒度语义交互过程中所面临的不确定性,实现多样化的粒度层级、灵活的组合方式以及模糊的交互强度。具体而言,本文提出层次化班扎夫交互(Hierarchical Banzhaf Interaction, HBI),用于量化视频帧与文本词之间可能的对应关系,从而实现敏感且可解释的跨模态对比学习。为高效实现多个视频帧与多个文本词之间的合作博弈,所提出的方法首先对原始视频帧(或文本词)进行聚类,并计算合并后标记(tokens)之间的班扎夫交互值。通过堆叠多个标记合并模块,模型能够在不同语义层级上实现多层次的合作博弈。在广泛使用的文本-视频检索与视频问答基准测试中,HBI方法均展现出优越的性能,充分验证了其有效性。更令人鼓舞的是,该方法还可作为可视化工具,有效促进对跨模态交互机制的理解,具有深远的学术影响。项目主页详见:https://jpthu17.github.io/HBI/。
代码仓库
jpthu17/dicosa
pytorch
GitHub 中提及
jpthu17/HBI
官方
pytorch
GitHub 中提及
jpthu17/emcl
pytorch
GitHub 中提及
jpthu17/diffusionret
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-msrvtt-qa | HBI | Accuracy: 46.2 |
| video-retrieval-on-activitynet | HBI | text-to-video Mean Rank: 6.6 text-to-video Median Rank: 2.0 text-to-video R@1: 42.2 text-to-video R@10: 84.6 text-to-video R@5: 73.0 video-to-text Mean Rank: 6.5 video-to-text Median Rank: 2.0 video-to-text R@1: 42.4 video-to-text R@10: 86.0 video-to-text R@5: 73.0 |
| video-retrieval-on-didemo | HBI | text-to-video Mean Rank: 12.1 text-to-video Median Rank: 2.0 text-to-video R@1: 46.9 text-to-video R@10: 82.7 text-to-video R@5: 74.9 video-to-text Mean Rank: 8.7 video-to-text Median Rank: 2.0 video-to-text R@1: 46.2 video-to-text R@10: 82.7 video-to-text R@5: 73.0 |
| video-retrieval-on-msr-vtt-1ka | HBI | text-to-video Mean Rank: 12.0 text-to-video Median Rank: 2.0 text-to-video R@1: 48.6 text-to-video R@10: 83.4 text-to-video R@5: 74.6 video-to-text Mean Rank: 8.9 video-to-text Median Rank: 2.0 video-to-text R@1: 46.8 video-to-text R@10: 84.3 video-to-text R@5: 74.3 |
| visual-question-answering-on-msrvtt-qa-1 | HBI | Accuracy: 0.462 |