4 个月前

FVQA:基于事实的视觉问答

FVQA:基于事实的视觉问答

摘要

视觉问答(VQA)在计算机视觉和自然语言处理领域受到了广泛关注,这不仅因为它提供了对两种重要信息源之间关系的洞察,还因为其潜在的应用价值。目前的数据集及基于这些数据集构建的模型主要集中在仅通过直接分析问题和图像本身即可回答的问题上。这类无需外部信息即可回答的问题虽然有趣,但范围非常有限。例如,它排除了需要常识或基本事实知识才能回答的问题。本文我们引入了一种新的VQA数据集——FVQA,该数据集要求并支持更深层次的推理。FVQA中只包含需要外部信息才能回答的问题。为此,我们在传统的视觉问答数据集基础上进行了扩展,传统数据集包含图像-问题-答案三元组,而扩展后的数据集则增加了图像-问题-答案-支持事实四元组。支持事实以结构化三元组的形式表示,例如<猫, 能够, 爬树>(<Cat, CapableOf, ClimbingTrees>)。我们对FVQA数据集上的几种基线模型进行了评估,并描述了一种新型模型,该模型能够在基于支持事实的情况下对图像进行推理。

基准测试

基准方法指标
visual-question-answering-on-f-vqaF-VQA (top-3-QQmaping)
Top-1 Accuracy: 56.91
Top-3 Accuracy: 64.65
visual-question-answering-on-f-vqaF-VQA (top-1-QQmaping)
Top-1 Accuracy: 52.56
Top-3 Accuracy: 59.72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FVQA:基于事实的视觉问答 | 论文 | HyperAI超神经