3 个月前

基于知识的视觉问答的一个简单基线

基于知识的视觉问答的一个简单基线

摘要

本文研究的是基于知识的视觉问答(Knowledge-Based Visual Question Answering, KB-VQA)问题。近期的研究强调,为了有效回答需要外部知识支撑的问题,必须同时整合显式知识(通过外部数据库获取)与隐式知识(通过大语言模型,LLM)两种信息源。然而,这类方法普遍存在一个共同局限:其系统架构通常较为复杂,且严重依赖于调用GPT-3的API接口。本文的主要贡献在于提出了一种更为简洁、易于复现的全新流程。该方法的核心思想是:通过使用富含问题相关信息的图像描述(question-informative captions)作为上下文信息,高效地引导LLaMA(1和2版本)进行上下文学习(in-context learning)。与现有方法不同,我们的方法无需训练,不依赖外部数据库或API接口,却在OK-VQA和A-OK-VQA两个基准数据集上取得了当前最优的准确率。最后,我们进行了多项消融实验,深入分析了方法中各项关键设计的作用。相关代码已公开,地址为:https://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQA。

基准测试

基准方法指标
visual-question-answering-on-a-okvqaA Simple Baseline for KB-VQA
DA VQA Score: 57.5
visual-question-answering-on-ok-vqaA Simple Baseline for KB-VQA
Accuracy: 61.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于知识的视觉问答的一个简单基线 | 论文 | HyperAI超神经