3 个月前

基于图像池的答案挖掘:面向基于检索的视觉问答

基于图像池的答案挖掘:面向基于检索的视觉问答

摘要

我们研究在一种特殊设定下的视觉问答任务:答案需从一组包含相关与无关图像的上下文图像池中挖掘得出。在此设定下,模型首先必须从图像池中检索出与问题相关的图像,然后基于这些检索到的图像回答问题。我们将这一问题称为基于检索的视觉问答(Retrieval-based Visual Question Answering,简称 RETVQA)。与传统视觉问答(VQA)任务不同——后者通常只需基于单张相关图像作答——RETVQA更具挑战性,因为它要求模型在包含大量异构图像的复杂上下文中完成检索与推理。为解决 RETVQA 任务,我们提出了一种统一的多图像 BART 模型(Multi Image BART,简称 MI-BART),该模型结合我们设计的相关性编码器,能够接收问题和检索到的多幅图像,并生成自然流畅的自由形式答案。此外,我们构建了该领域目前规模最大的数据集——RETVQA,其具有以下显著特点:支持多图像输入并强制执行检索机制;问题不依赖于图像元数据,适用于异构图像池;答案类型涵盖以分类为导向的封闭式回答与开放式生成式回答的混合形式。在所提出的 RETVQA 数据集上,我们提出的框架在准确率上达到 76.5%,在答案流畅性上达到 79.3%。同时,在公开可用的 WebQA 数据集的图像子集上,该框架在准确率和流畅性两项指标上分别优于当前最先进方法 4.9% 和 11.8%。

代码仓库

Abhiram4572/mi_bart
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-vqa-on-retvqaMI-BART
Accuarcy: 76.5
Accuracy * Fluency: 70.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于图像池的答案挖掘:面向基于检索的视觉问答 | 论文 | HyperAI超神经