4 个月前

Gramian 多模态表示学习与对齐

Gramian 多模态表示学习与对齐

摘要

人类感知将多种模态(如视觉、听觉和语言)整合为对周围现实的统一理解。尽管最近的多模态模型通过对比学习在对齐模态对方面取得了显著进展,但这些解决方案在扩展到多个模态时并不适用。这些模型通常将每个模态与指定的锚点对齐,而没有确保所有模态之间的相互对齐,从而导致在需要联合理解多个模态的任务中表现不佳。本文中,我们从结构上重新思考了传统的多模态学习中的成对方法,并提出了一种新颖的格拉姆表示对齐度量(Gramian Representation Alignment Measure, GRAM),以克服上述限制。GRAM 通过最小化由模态向量张成的 $k$ 维平行多面体的格拉姆体积,直接在高维嵌入空间中学习并对齐 $n$ 个模态,从而同时确保所有模态的几何对齐。GRAM 可以替代任何下游方法中的余弦相似度,适用于 2 到 $n$ 个模态,并且相对于之前的相似度度量提供了更有意义的对齐。基于 GRAM 的新型对比损失函数增强了多模态模型在高维嵌入空间中的对齐效果,从而在视频-音频-文本检索和音频-视频分类等下游任务中实现了新的最先进性能。项目页面、代码和预训练模型可在 https://ispamm.github.io/GRAM/ 获取。

代码仓库

luigisigillo/gwit
jax
GitHub 中提及
ispamm/GRAM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-activitynetGRAM
text-to-video R@1: 69.9
text-to-video R@10: 96.1
video-to-text R@1: 66.9
video-to-text R@10: 95.4
video-retrieval-on-didemoGRAM
text-to-video R@1: 67.3
text-to-video R@10: 90.1
video-to-text R@1: 63.5
video-to-text R@10: 91.6
video-retrieval-on-msr-vttGRAM
text-to-video R@1: 64
text-to-video R@10: 89.3
video-to-text R@1: 64.8
video-to-text R@10: 91.5
video-retrieval-on-vatexGRAM
text-to-video R@1: 87.7
text-to-video R@10: 100
video-to-text R@1: 84.6
video-to-text R@10: 100
zero-shot-video-retrieval-on-activitynetGRAM
text-to-video R@1: 59.0
text-to-video R@10: 91.2
video-to-text R@1: 50.9
video-to-text R@10: 85.8
zero-shot-video-retrieval-on-didemoGRAM
text-to-video R@1: 54.2
text-to-video R@10: 80.7
video-to-text R@1: 52.3
video-to-text R@10: 80.3
zero-shot-video-retrieval-on-msr-vttGRAM
text-to-video R@1: 54.8
text-to-video R@10: 83.9
video-to-text R@1: 52.9
video-to-text R@10: 82.9
zero-shot-video-retrieval-on-vatexGRAM
text-to-video R@1: 83.9
text-to-video R@10: 99.5
video-to-text R@1: 82.7
video-to-text R@10: 99

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Gramian 多模态表示学习与对齐 | 论文 | HyperAI超神经