摘要

大型视觉-语言模型（LVLMs）会产生幻觉：图像中的某些上下文线索可能触发语言模块对异常或假设对象的过度自信且错误的推理。尽管已有一些基准测试被开发用于研究LVLMs的幻觉现象，但它们主要依赖于手工构建的极端案例，这些案例的失败模式可能难以推广，而在此类数据上进行微调可能会削弱其有效性。这促使我们开发了首个自动基准生成方法——AUTOHALLUSION，该方法利用几种核心策略来创建多样化的幻觉示例。它通过以下方式探测LVLMs中语言模块的上下文线索并利用这些线索合成图像：（1）添加与上下文线索不符的异常对象；（2）对于两个共现的对象，保留一个而排除另一个；或（3）移除与上下文线索紧密相关的对象。随后，它生成基于图像的问题，这些问题的真实答案与语言模块的先验知识相矛盾。模型必须克服上下文偏差和干扰才能得出正确的答案，而错误或不一致的答案则表明存在幻觉现象。AUTOHALLUSION使我们能够以最低成本创建新的基准测试，从而克服手工构建基准测试的脆弱性。此外，它还揭示了常见的失败模式和原因，为检测、避免或控制幻觉提供了关键见解。对顶级LVLMs（如GPT-4V(ision)、Gemini Pro Vision、Claude 3和LLaVA-1.5）进行全面评估的结果显示，在AUTOHALLUSION生成的合成数据集和真实世界数据集中，诱导幻觉的成功率分别为97.7%和98.7%，为对抗幻觉现象铺平了道路。

源 PDF 查看代码