4 个月前

VQA:视觉问题回答

VQA:视觉问题回答

摘要

我们提出了一项自由形式且开放式的视觉问答(VQA)任务。给定一张图像及其相关的自然语言问题,该任务的目标是提供一个准确的自然语言答案。这一任务反映了现实世界中的场景,例如帮助视障人士,因此问题和答案都是开放性的。视觉问题有选择性地针对图像的不同区域,包括背景细节和潜在上下文。因此,一个在VQA任务中表现良好的系统通常需要对图像有更详细的理解并进行复杂的推理,而不仅仅是生成通用的图像描述。此外,由于许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供,因此VQA适合自动评估。我们提供了一个数据集,其中包含约25万张图像、约76万个问题和约1000万个答案(www.visualqa.org),并讨论了该数据集提供的信息。我们提供了多种基线方法和VQA技术,并将其与人类的表现进行了比较。我们的VQA演示可在CloudCV网站上访问(http://cloudcv.org/vqa)。

代码仓库

chirag26495/DAN_VQA
pytorch
GitHub 中提及
ramprs/grad-cam
pytorch
GitHub 中提及
mkhalil1998/EC601_Group_Project
pytorch
GitHub 中提及
vipulgupta1011/swapmix
pytorch
GitHub 中提及
yanxinyan1/yxy
pytorch
GitHub 中提及
moh833/VQA
GitHub 中提及
SatyamGaba/vqa
pytorch
GitHub 中提及
tbmoon/basic_vqa
pytorch
GitHub 中提及
ntusteeian/VQA_CNN-LSTM
pytorch
GitHub 中提及
mishajw/vocab_pie
GitHub 中提及
ruxuan666/VQA_program
pytorch
GitHub 中提及
SDaydreamer/VisualQA_Project
pytorch
GitHub 中提及
abhshkdz/neural-vqa-attention
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-coco-visualDLAIT
Percentage correct: 68.07
visual-question-answering-on-coco-visualHDU-USYD-UNCC
Percentage correct: 68.16
visual-question-answering-on-coco-visual-1LSTM Q+I
Percentage correct: 63.1
visual-question-answering-on-coco-visual-2LSTM + global features
Percentage correct: 65.02
visual-question-answering-on-coco-visual-2Dualnet ensemble
Percentage correct: 69.73
visual-question-answering-on-coco-visual-2LSTM blind
Percentage correct: 57.19
visual-question-answering-on-coco-visual-3Dualnet ensemble
Percentage correct: 71.18
visual-question-answering-on-coco-visual-3LSTM + global features
Percentage correct: 69.21
visual-question-answering-on-coco-visual-3LSTM blind
Percentage correct: 61.41
visual-question-answering-on-coco-visual-4LSTM Q+I
Percentage correct: 58.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VQA:视觉问题回答 | 论文 | HyperAI超神经