
摘要
近年来,“自底向上”注意力机制所依赖的基于边界框(或区域)的视觉特征,已逐渐取代传统的基于网格的卷积特征,成为视觉与语言任务(如视觉问答,VQA)中的事实标准。然而,区域特征(例如更优的定位能力)是否真正构成了自底向上注意力机制成功的关键因素,仍不明确。本文重新审视了VQA任务中网格特征的潜力,发现其表现出令人惊讶的优异性能——在保持相同准确率的前提下,推理速度提升超过一个数量级(例如,若以相似方式预训练)。通过大量实验,我们验证了这一发现适用于多种VQA模型、不同数据集,并在图像描述生成等其他任务中也展现出良好的泛化能力(在VQA 2.0 test-std上达到72.71的最新SOTA准确率)。由于网格特征显著简化了模型设计与训练流程,使得端到端训练成为可能,同时支持更灵活的网络架构设计。我们实现了从像素直接到答案的端到端VQA模型训练,并证明在预训练阶段无需依赖任何区域标注即可获得强大性能。我们希望本研究能进一步推动对VQA任务的科学理解,并促进其实际应用。相关代码与特征将公开发布。
代码仓库
facebookresearch/grid-feats-vqa
pytorch
GitHub 中提及
clip-vil/CLIP-ViL
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-vqa-v2-test-dev | X-101 grid features + MCAN | Accuracy: 72.59 |
| visual-question-answering-on-vqa-v2-test-std | Single, w/o VLP | number: 58.01 other: 64.77 overall: 74.16 yes/no: 89.18 |
| visual-question-answering-on-vqa-v2-test-std | X-101 grid features + MCAN | overall: 72.71 |