7 个月前

多模态表征

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

摘要

近年来，利用从大规模语言或视觉数据集中训练得到的向量表示来建模文本或视觉信息已经取得了成功。然而，诸如视觉问答等任务需要将这些向量表示相互结合。多模态池化的常用方法包括元素级乘积或求和，以及视觉和文本表示的连接。我们假设这些方法不如视觉和文本向量的外积（outer product）具有表达力。由于外积通常因高维度而不可行，因此我们提出使用多模态紧凑双线性池化（Multimodal Compact Bilinear pooling, MCB）来高效且富有表达力地结合多模态特征。我们在视觉问答和定位任务上对MCB进行了广泛的评估，并始终展示了MCB相对于未使用MCB的方法的优势。对于视觉问答任务，我们提出了一种架构，该架构两次使用MCB：一次用于预测空间特征上的注意力，另一次用于将注意力后的表示与问题表示相结合。该模型在Visual7W数据集和VQA挑战赛中超越了现有最佳方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

Akira Fukui1,2 Dong Huk Park1 Daylen Yang1 Anna Rohrbach1,3 Trevor Darrell1 Marcus Rohrbach1

摘要

近年来，利用从大规模语言或视觉数据集中训练得到的向量表示来建模文本或视觉信息已经取得了成功。然而，诸如视觉问答等任务需要将这些向量表示相互结合。多模态池化的常用方法包括元素级乘积或求和，以及视觉和文本表示的连接。我们假设这些方法不如视觉和文本向量的外积（outer product）具有表达力。由于外积通常因高维度而不可行，因此我们提出使用多模态紧凑双线性池化（Multimodal Compact Bilinear pooling, MCB）来高效且富有表达力地结合多模态特征。我们在视觉问答和定位任务上对MCB进行了广泛的评估，并始终展示了MCB相对于未使用MCB的方法的优势。对于视觉问答任务，我们提出了一种架构，该架构两次使用MCB：一次用于预测空间特征上的注意力，另一次用于将注意力后的表示与问题表示相结合。该模型在Visual7W数据集和VQA挑战赛中超越了现有最佳方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

多模态紧凑双线性池化在视觉问答和视觉定位中的应用 | 论文 | HyperAI超神经