4 个月前

利用分类数据集及其语义层次结构对视觉-语言模型进行开放式VQA基准测试

利用分类数据集及其语义层次结构对视觉-语言模型进行开放式VQA基准测试

摘要

文本生成型视觉-语言模型的评估是一项具有挑战性但至关重要的任务。通过解决现有视觉问答(VQA)基准测试的局限性并提出创新的评估方法,我们的研究旨在深化对这些模型能力的理解。我们提出了一种基于知名视觉分类数据集的新VQA基准测试,该基准测试允许对文本生成型视觉-语言模型进行细致的评估,并将其与判别型视觉-语言模型进行比较。为了改进在细粒度分类任务中对粗略答案的评估,我们建议利用标签空间的语义层次结构自动生成关于真实类别的一系列后续问题。最后,我们对比了传统自然语言处理(NLP)和基于大语言模型(LLM)的评估指标,用于根据真实答案评价模型预测。我们进行了一个人类评估研究,以此为基础决定最终采用的评估指标。我们将这一基准测试应用于一系列视觉-语言模型,并展示了它们在物体、动作和属性分类任务上的详细对比结果。我们的贡献旨在为更精确和有意义的评估奠定基础,促进视觉-语言建模领域的定向发展。

代码仓库

lmb-freiburg/ovqa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-vqa-on-activitynet-1BLIP-2 T5
ClipMatch@1: 53.39
ClipMatch@5: 74.71
Contains: 15.70
ExactMatch: 7.07
Follow-up ClipMatch@1: 62.02
Follow-up ClipMatch@5: 75.13
Follow-up Contains: 18.09
Follow-up ExactMatch: 8.84
visual-question-answering-vqa-on-cocoInstructBLIP Vicuna
ClipMatch@1: 59.58
ClipMatch@5: 73.32
Contains: 27.52
ExactMatch: 26.50
visual-question-answering-vqa-on-imagenetBLIP-2 OPT
ClipMatch@1: 57.10
ClipMatch@5: 77.24
Contains: 35.49
ExactMatch: 0.87
Follow-up ClipMatch@1: 67.22
Follow-up ClipMatch@5: 83.54
Follow-up Contains: 40.31
Follow-up ExactMatch: 2.54
visual-question-answering-vqa-on-ovadBLIP
Contains w. Synonyms: 45.70
ExactMatch w. Synonyms: 36.99

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用分类数据集及其语义层次结构对视觉-语言模型进行开放式VQA基准测试 | 论文 | HyperAI超神经