4 个月前

BLOCK:用于视觉问答和视觉关系检测的双线性超对角融合

BLOCK:用于视觉问答和视觉关系检测的双线性超对角融合

摘要

多模态表示学习在深度学习领域中正逐渐受到越来越多的关注。尽管双线性模型为寻找模态之间的细微组合提供了一个有趣的框架,但其参数数量随着输入维度的增加而呈二次增长,这使得它们在经典深度学习流水线中的实际应用变得具有挑战性。本文介绍了BLOCK,一种基于块超对角张量分解的新多模态融合方法。该方法利用了块项秩的概念,这是已经用于多模态融合的张量秩和模式秩的推广。它允许定义新的优化方法来平衡融合模型的表达能力和复杂度,并且能够在保持强大的单模态表示的同时,表示出非常精细的模态间交互。我们通过将BLOCK应用于两个具有挑战性的任务——视觉问答(VQA)和视觉关系检测(VRD),展示了我们融合模型的实际价值,在这些任务中设计了端到端可学习的架构以表示相关模态间的交互。通过广泛的实验,我们证明了BLOCK在VQA和VRD任务上与现有最先进的多模态融合模型相比具有竞争力。我们的代码可在https://github.com/Cadene/block.bootstrap.pytorch 获取。

代码仓库

Cadene/block.bootstrap.pytorch
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-vqa-v2-test-devBLOCK
Accuracy: 67.58
visual-question-answering-on-vqa-v2-test-stdBLOCK
overall: 67.9
visual-relationship-detection-on-vrdBLOCK
R@100: 92.58
R@50: 86.58
visual-relationship-detection-on-vrd-1BLOCK
R@100: 20.96
R@50: 19.06
visual-relationship-detection-on-vrd-phraseBLOCK
R@100: 28.96
R@50: 26.32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BLOCK:用于视觉问答和视觉关系检测的双线性超对角融合 | 论文 | HyperAI超神经