4 个月前

多模态紧凑双线性池化在视觉问答和视觉定位中的应用

多模态紧凑双线性池化在视觉问答和视觉定位中的应用

摘要

近年来,利用从大规模语言或视觉数据集中训练得到的向量表示来建模文本或视觉信息已经取得了成功。然而,诸如视觉问答等任务需要将这些向量表示相互结合。多模态池化的常用方法包括元素级乘积或求和,以及视觉和文本表示的连接。我们假设这些方法不如视觉和文本向量的外积(outer product)具有表达力。由于外积通常因高维度而不可行,因此我们提出使用多模态紧凑双线性池化(Multimodal Compact Bilinear pooling, MCB)来高效且富有表达力地结合多模态特征。我们在视觉问答和定位任务上对MCB进行了广泛的评估,并始终展示了MCB相对于未使用MCB的方法的优势。对于视觉问答任务,我们提出了一种架构,该架构两次使用MCB:一次用于预测空间特征上的注意力,另一次用于将注意力后的表示与问题表示相结合。该模型在Visual7W数据集和VQA挑战赛中超越了现有最佳方法。

代码仓库

yikang-li/iqan
pytorch
GitHub 中提及
Cadene/vqa.pytorch
pytorch
GitHub 中提及
gabegrand/adversarial-vqa
pytorch
GitHub 中提及
JoonSeongPark/vqa
pytorch
GitHub 中提及
akirafukui/vqa-mcb
官方
caffe2
GitHub 中提及
arunmallya/simple-vqa
pytorch
GitHub 中提及
jnhwkim/cbp
pytorch
GitHub 中提及
MarcBS/keras
GitHub 中提及
Adam1679/mutan-article-net
pytorch
GitHub 中提及
vuhoangminh/vqa_medical
pytorch
GitHub 中提及

基准测试

基准方法指标
phrase-grounding-on-flickr30k-entities-testMCB
R@1: 48.69
phrase-grounding-on-referitMCB
Accuracy: 28.91
visual-question-answering-on-coco-visual-1MCB 7 att.
Percentage correct: 70.1
visual-question-answering-on-coco-visual-4MCB 7 att.
Percentage correct: 66.5
visual-question-answering-on-visual7wMCB+Att.
Percentage correct: 62.2
visual-question-answering-on-vqa-v1-test-devMCB (ResNet)
Accuracy: 64.2
visual-question-answering-on-vqa-v2-test-devMCB
Accuracy: 64.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态紧凑双线性池化在视觉问答和视觉定位中的应用 | 论文 | HyperAI超神经