
摘要
近年来,利用从大规模语言或视觉数据集中训练得到的向量表示来建模文本或视觉信息已经取得了成功。然而,诸如视觉问答等任务需要将这些向量表示相互结合。多模态池化的常用方法包括元素级乘积或求和,以及视觉和文本表示的连接。我们假设这些方法不如视觉和文本向量的外积(outer product)具有表达力。由于外积通常因高维度而不可行,因此我们提出使用多模态紧凑双线性池化(Multimodal Compact Bilinear pooling, MCB)来高效且富有表达力地结合多模态特征。我们在视觉问答和定位任务上对MCB进行了广泛的评估,并始终展示了MCB相对于未使用MCB的方法的优势。对于视觉问答任务,我们提出了一种架构,该架构两次使用MCB:一次用于预测空间特征上的注意力,另一次用于将注意力后的表示与问题表示相结合。该模型在Visual7W数据集和VQA挑战赛中超越了现有最佳方法。
代码仓库
yikang-li/iqan
pytorch
GitHub 中提及
Cadene/vqa.pytorch
pytorch
GitHub 中提及
gabegrand/adversarial-vqa
pytorch
GitHub 中提及
JoonSeongPark/vqa
pytorch
GitHub 中提及
akirafukui/vqa-mcb
官方
caffe2
GitHub 中提及
arunmallya/simple-vqa
pytorch
GitHub 中提及
jnhwkim/cbp
pytorch
GitHub 中提及
MarcBS/keras
GitHub 中提及
Adam1679/mutan-article-net
pytorch
GitHub 中提及
vuhoangminh/vqa_medical
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| phrase-grounding-on-flickr30k-entities-test | MCB | R@1: 48.69 |
| phrase-grounding-on-referit | MCB | Accuracy: 28.91 |
| visual-question-answering-on-coco-visual-1 | MCB 7 att. | Percentage correct: 70.1 |
| visual-question-answering-on-coco-visual-4 | MCB 7 att. | Percentage correct: 66.5 |
| visual-question-answering-on-visual7w | MCB+Att. | Percentage correct: 62.2 |
| visual-question-answering-on-vqa-v1-test-dev | MCB (ResNet) | Accuracy: 64.2 |
| visual-question-answering-on-vqa-v2-test-dev | MCB | Accuracy: 64.7 |