
摘要
多模态表示学习在深度学习领域中正逐渐受到越来越多的关注。尽管双线性模型为寻找模态之间的细微组合提供了一个有趣的框架,但其参数数量随着输入维度的增加而呈二次增长,这使得它们在经典深度学习流水线中的实际应用变得具有挑战性。本文介绍了BLOCK,一种基于块超对角张量分解的新多模态融合方法。该方法利用了块项秩的概念,这是已经用于多模态融合的张量秩和模式秩的推广。它允许定义新的优化方法来平衡融合模型的表达能力和复杂度,并且能够在保持强大的单模态表示的同时,表示出非常精细的模态间交互。我们通过将BLOCK应用于两个具有挑战性的任务——视觉问答(VQA)和视觉关系检测(VRD),展示了我们融合模型的实际价值,在这些任务中设计了端到端可学习的架构以表示相关模态间的交互。通过广泛的实验,我们证明了BLOCK在VQA和VRD任务上与现有最先进的多模态融合模型相比具有竞争力。我们的代码可在https://github.com/Cadene/block.bootstrap.pytorch 获取。
代码仓库
Cadene/block.bootstrap.pytorch
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-vqa-v2-test-dev | BLOCK | Accuracy: 67.58 |
| visual-question-answering-on-vqa-v2-test-std | BLOCK | overall: 67.9 |
| visual-relationship-detection-on-vrd | BLOCK | R@100: 92.58 R@50: 86.58 |
| visual-relationship-detection-on-vrd-1 | BLOCK | R@100: 20.96 R@50: 19.06 |
| visual-relationship-detection-on-vrd-phrase | BLOCK | R@100: 28.96 R@50: 26.32 |