3 个月前

视觉问答中网格特征的辩护

视觉问答中网格特征的辩护

摘要

近年来,“自底向上”注意力机制所依赖的基于边界框(或区域)的视觉特征,已逐渐取代传统的基于网格的卷积特征,成为视觉与语言任务(如视觉问答,VQA)中的事实标准。然而,区域特征(例如更优的定位能力)是否真正构成了自底向上注意力机制成功的关键因素,仍不明确。本文重新审视了VQA任务中网格特征的潜力,发现其表现出令人惊讶的优异性能——在保持相同准确率的前提下,推理速度提升超过一个数量级(例如,若以相似方式预训练)。通过大量实验,我们验证了这一发现适用于多种VQA模型、不同数据集,并在图像描述生成等其他任务中也展现出良好的泛化能力(在VQA 2.0 test-std上达到72.71的最新SOTA准确率)。由于网格特征显著简化了模型设计与训练流程,使得端到端训练成为可能,同时支持更灵活的网络架构设计。我们实现了从像素直接到答案的端到端VQA模型训练,并证明在预训练阶段无需依赖任何区域标注即可获得强大性能。我们希望本研究能进一步推动对VQA任务的科学理解,并促进其实际应用。相关代码与特征将公开发布。

代码仓库

facebookresearch/grid-feats-vqa
pytorch
GitHub 中提及
clip-vil/CLIP-ViL
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-vqa-v2-test-devX-101 grid features + MCAN
Accuracy: 72.59
visual-question-answering-on-vqa-v2-test-stdSingle, w/o VLP
number: 58.01
other: 64.77
overall: 74.16
yes/no: 89.18
visual-question-answering-on-vqa-v2-test-stdX-101 grid features + MCAN
overall: 72.71

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供