3 个月前

视频-文本作为游戏参与者:用于跨模态表示学习的分层Banzhaf交互

视频-文本作为游戏参与者:用于跨模态表示学习的分层Banzhaf交互

摘要

基于对比学习的视频-语言表征学习方法(如CLIP)已取得卓越性能,其核心思想在于对预定义的视频-文本配对进行语义层面的交互建模。然而,要清晰揭示这种粗粒度的全局交互机制并进一步推进,必须面对细粒度跨模态学习中极具挑战性的“壳层突破”式交互问题。本文创造性地将视频与文本建模为多变量合作博弈中的参与者,借助合作博弈论,灵活应对细粒度语义交互过程中所面临的不确定性,实现多样化的粒度层级、灵活的组合方式以及模糊的交互强度。具体而言,本文提出层次化班扎夫交互(Hierarchical Banzhaf Interaction, HBI),用于量化视频帧与文本词之间可能的对应关系,从而实现敏感且可解释的跨模态对比学习。为高效实现多个视频帧与多个文本词之间的合作博弈,所提出的方法首先对原始视频帧(或文本词)进行聚类,并计算合并后标记(tokens)之间的班扎夫交互值。通过堆叠多个标记合并模块,模型能够在不同语义层级上实现多层次的合作博弈。在广泛使用的文本-视频检索与视频问答基准测试中,HBI方法均展现出优越的性能,充分验证了其有效性。更令人鼓舞的是,该方法还可作为可视化工具,有效促进对跨模态交互机制的理解,具有深远的学术影响。项目主页详见:https://jpthu17.github.io/HBI/。

代码仓库

jpthu17/dicosa
pytorch
GitHub 中提及
jpthu17/HBI
官方
pytorch
GitHub 中提及
jpthu17/emcl
pytorch
GitHub 中提及
jpthu17/diffusionret
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-msrvtt-qaHBI
Accuracy: 46.2
video-retrieval-on-activitynetHBI
text-to-video Mean Rank: 6.6
text-to-video Median Rank: 2.0
text-to-video R@1: 42.2
text-to-video R@10: 84.6
text-to-video R@5: 73.0
video-to-text Mean Rank: 6.5
video-to-text Median Rank: 2.0
video-to-text R@1: 42.4
video-to-text R@10: 86.0
video-to-text R@5: 73.0
video-retrieval-on-didemoHBI
text-to-video Mean Rank: 12.1
text-to-video Median Rank: 2.0
text-to-video R@1: 46.9
text-to-video R@10: 82.7
text-to-video R@5: 74.9
video-to-text Mean Rank: 8.7
video-to-text Median Rank: 2.0
video-to-text R@1: 46.2
video-to-text R@10: 82.7
video-to-text R@5: 73.0
video-retrieval-on-msr-vtt-1kaHBI
text-to-video Mean Rank: 12.0
text-to-video Median Rank: 2.0
text-to-video R@1: 48.6
text-to-video R@10: 83.4
text-to-video R@5: 74.6
video-to-text Mean Rank: 8.9
video-to-text Median Rank: 2.0
video-to-text R@1: 46.8
video-to-text R@10: 84.3
video-to-text R@5: 74.3
visual-question-answering-on-msrvtt-qa-1HBI
Accuracy: 0.462

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频-文本作为游戏参与者:用于跨模态表示学习的分层Banzhaf交互 | 论文 | HyperAI超神经