3 个月前

VinVL+L:在VQA中通过位置上下文丰富视觉表征

VinVL+L:在VQA中通过位置上下文丰富视觉表征

摘要

在本文中,我们提出了一种新方法——VinVL+L,该方法通过引入位置信息,对当前最先进的视觉与语言(Vision and Language, VL)模型VinVL的视觉表征(即目标标签和区域特征)进行了增强。为验证此类元数据对VL模型的重要性,我们开展了以下三方面工作:(i)在Places365数据集上训练了一个Swin-B模型,获得了额外的视觉特征与标签特征集,并已公开发布,以支持结果的可复现性及后续研究;(ii)对现有VinVL模型架构进行了更新,集成上述新特征集;(iii)提供了定性和定量的综合评估。仅引入二值化位置元数据,VinVL+L方法在视觉问答(Visual Question Answering, VQA)任务上即实现了对当前最先进模型VinVL的增量性能提升。在GQA数据集上,VinVL+L取得了64.85%的准确率,准确率相对原模型提升了+0.32%,且通过近似随机化检验(Approximate Randomization)验证了新特征表示的统计显著性。代码及新生成的特征集已开源,可通过以下链接获取:https://github.com/vyskocj/VinVL-L。

基准测试

基准方法指标
visual-question-answering-on-gqa-test2019VinVL+L
Accuracy: 64.85
Binary: 82.59
Consistency: 94.0
Distribution: 4.59
Open: 49.19
Plausibility: 84.91
Validity: 96.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VinVL+L:在VQA中通过位置上下文丰富视觉表征 | 论文 | HyperAI超神经