
摘要
我们提出了一项自由形式且开放式的视觉问答(VQA)任务。给定一张图像及其相关的自然语言问题,该任务的目标是提供一个准确的自然语言答案。这一任务反映了现实世界中的场景,例如帮助视障人士,因此问题和答案都是开放性的。视觉问题有选择性地针对图像的不同区域,包括背景细节和潜在上下文。因此,一个在VQA任务中表现良好的系统通常需要对图像有更详细的理解并进行复杂的推理,而不仅仅是生成通用的图像描述。此外,由于许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供,因此VQA适合自动评估。我们提供了一个数据集,其中包含约25万张图像、约76万个问题和约1000万个答案(www.visualqa.org),并讨论了该数据集提供的信息。我们提供了多种基线方法和VQA技术,并将其与人类的表现进行了比较。我们的VQA演示可在CloudCV网站上访问(http://cloudcv.org/vqa)。
代码仓库
abhijit-buet/VizWiz-Visual-Question-Answering-2021
pytorch
GitHub 中提及
chirag26495/DAN_VQA
pytorch
GitHub 中提及
mokhalid-dev/Attention-based-VQA-model
pytorch
GitHub 中提及
ramprs/grad-cam
pytorch
GitHub 中提及
mkhalil1998/EC601_Group_Project
pytorch
GitHub 中提及
vipulgupta1011/swapmix
pytorch
GitHub 中提及
yanxinyan1/yxy
pytorch
GitHub 中提及
moh833/VQA
GitHub 中提及
SatyamGaba/vqa
pytorch
GitHub 中提及
SatyamGaba/visual_question_answering
pytorch
GitHub 中提及
tbmoon/basic_vqa
pytorch
GitHub 中提及
SuchismitaSahu1993/VQA-System
GitHub 中提及
Shivanshu-Gupta/Visual-Question-Answering
pytorch
GitHub 中提及
ntusteeian/VQA_CNN-LSTM
pytorch
GitHub 中提及
abhijit-buet/VizWiz-Visua-Question-Answering-2021
pytorch
GitHub 中提及
luomancs/alternative_answer_set
GitHub 中提及
mishajw/vocab_pie
GitHub 中提及
ruxuan666/VQA_program
pytorch
GitHub 中提及
SDaydreamer/VisualQA_Project
pytorch
GitHub 中提及
Shivmohith/Visual-Assistance-for-the-Blind
tf
GitHub 中提及
abhshkdz/neural-vqa-attention
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-coco-visual | DLAIT | Percentage correct: 68.07 |
| visual-question-answering-on-coco-visual | HDU-USYD-UNCC | Percentage correct: 68.16 |
| visual-question-answering-on-coco-visual-1 | LSTM Q+I | Percentage correct: 63.1 |
| visual-question-answering-on-coco-visual-2 | LSTM + global features | Percentage correct: 65.02 |
| visual-question-answering-on-coco-visual-2 | Dualnet ensemble | Percentage correct: 69.73 |
| visual-question-answering-on-coco-visual-2 | LSTM blind | Percentage correct: 57.19 |
| visual-question-answering-on-coco-visual-3 | Dualnet ensemble | Percentage correct: 71.18 |
| visual-question-answering-on-coco-visual-3 | LSTM + global features | Percentage correct: 69.21 |
| visual-question-answering-on-coco-visual-3 | LSTM blind | Percentage correct: 61.41 |
| visual-question-answering-on-coco-visual-4 | LSTM Q+I | Percentage correct: 58.2 |