7 个月前

多模态表征

计算机视觉

计算机视觉

Lukáš Picek Jiří Vyskočil

摘要

在本文中，我们提出了一种新方法——VinVL+L，该方法通过引入位置信息，对当前最先进的视觉与语言（Vision and Language, VL）模型VinVL的视觉表征（即目标标签和区域特征）进行了增强。为验证此类元数据对VL模型的重要性，我们开展了以下三方面工作：（i）在Places365数据集上训练了一个Swin-B模型，获得了额外的视觉特征与标签特征集，并已公开发布，以支持结果的可复现性及后续研究；（ii）对现有VinVL模型架构进行了更新，集成上述新特征集；（iii）提供了定性和定量的综合评估。仅引入二值化位置元数据，VinVL+L方法在视觉问答（Visual Question Answering, VQA）任务上即实现了对当前最先进模型VinVL的增量性能提升。在GQA数据集上，VinVL+L取得了64.85%的准确率，准确率相对原模型提升了+0.32%，且通过近似随机化检验（Approximate Randomization）验证了新特征表示的统计显著性。代码及新生成的特征集已开源，可通过以下链接获取：https://github.com/vyskocj/VinVL-L。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

计算机视觉

计算机视觉

Lukáš Picek Jiří Vyskočil

摘要

在本文中，我们提出了一种新方法——VinVL+L，该方法通过引入位置信息，对当前最先进的视觉与语言（Vision and Language, VL）模型VinVL的视觉表征（即目标标签和区域特征）进行了增强。为验证此类元数据对VL模型的重要性，我们开展了以下三方面工作：（i）在Places365数据集上训练了一个Swin-B模型，获得了额外的视觉特征与标签特征集，并已公开发布，以支持结果的可复现性及后续研究；（ii）对现有VinVL模型架构进行了更新，集成上述新特征集；（iii）提供了定性和定量的综合评估。仅引入二值化位置元数据，VinVL+L方法在视觉问答（Visual Question Answering, VQA）任务上即实现了对当前最先进模型VinVL的增量性能提升。在GQA数据集上，VinVL+L取得了64.85%的准确率，准确率相对原模型提升了+0.32%，且通过近似随机化检验（Approximate Randomization）验证了新特征表示的统计显著性。代码及新生成的特征集已开源，可通过以下链接获取：https://github.com/vyskocj/VinVL-L。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

VinVL+L：在VQA中通过位置上下文丰富视觉表征 | 论文 | HyperAI超神经