4 个月前

HallusionBench:大型视觉-语言模型中纠缠语言幻觉和视觉错觉的高级诊断工具套件

HallusionBench:大型视觉-语言模型中纠缠语言幻觉和视觉错觉的高级诊断工具套件

摘要

我们介绍了HallusionBench,这是一个全面的基准测试工具,旨在评估图像上下文推理能力。该基准测试对先进的大型视觉-语言模型(LVLMs),如GPT-4V(Vision)、Gemini Pro Vision、Claude 3和LLaVA-1.5等,提出了重大挑战,强调对视觉数据的细微理解和解释。HallusionBench包含346张图像及其配对的1129个问题,所有这些问题均由人类专家精心设计。我们引入了一种新颖的视觉问题结构,旨在建立对照组。这种结构使我们能够对模型的回答倾向、逻辑一致性以及各种失败模式进行定量分析。在我们的HallusionBench评估中,我们测试了15种不同的模型,其中最先进的GPT-4V达到了31.42%的问题对准确率。值得注意的是,其他所有被评估的模型准确率均低于16%。此外,我们的分析不仅揭示了观察到的失败模式,包括语言幻觉和视觉错觉,还加深了对这些陷阱的理解。我们在HallusionBench中的综合案例研究阐明了LVLMs在幻觉和错觉方面面临的挑战。基于这些洞察,我们建议了一些未来改进的潜在途径。该基准测试和代码库可在https://github.com/tianyi-lab/HallusionBench获取。

代码仓库

wuxiyang1996/AutoHallusion
pytorch
GitHub 中提及
FuxiaoLiu/VisualNews-Repository
pytorch
GitHub 中提及
zli12321/qa_metrics
GitHub 中提及
tianyi-lab/hallusionbench
官方
GitHub 中提及
dongping-chen/mllm-as-a-judge
pytorch
GitHub 中提及
zli12321/videohallu
pytorch
GitHub 中提及
fuxiaoliu/mmc
pytorch
GitHub 中提及
FuxiaoLiu/LRV-Instruction
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-vqa-on-3GPT-4V-

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HallusionBench:大型视觉-语言模型中纠缠语言幻觉和视觉错觉的高级诊断工具套件 | 论文 | HyperAI超神经