Tianyu YuHaoye ZhangQiming LiQixin XuYuan YaoDa ChenXiaoman LuGanqu CuiYunkai DangTaiwen HeXiaocheng FengJun SongBo ZhengZhiyuan LiuTat-Seng ChuaMaosong Sun

摘要
传统的幻觉抑制反馈学习方法依赖于耗时的人工标注或昂贵的专有模型,导致学术界缺乏关于如何基于开源多模态大语言模型(MLLMs)构建高质量反馈的系统性知识。本文提出一种全新的框架——RLAIF-V,该框架在完全开源的范式下实现多模态大语言模型的对齐。RLAIF-V从两个维度最大化挖掘开源MLLM的潜力:一是用于偏好学习的高质量反馈数据生成,二是推理阶段的自反馈引导机制,以实现模型规模的可扩展性。在六个基准测试上的大量实验结果表明,无论是自动评估还是人工评估,RLAIF-V均显著提升了模型在偏好学习与推理阶段的可信度。其中,RLAIF-V 7B模型将物体幻觉减少80.7%,整体幻觉降低33.7%。尤为突出的是,RLAIF-V 12B进一步揭示了开源MLLM具备强大的自对齐潜力——模型能够通过自我反馈进行学习,最终实现超越GPT-4V级别的可信度。
代码仓库
rlhf-v/rlaif-v
官方
pytorch
GitHub 中提及
OpenBMB/MiniCPM-o
pytorch
GitHub 中提及
openbmb/omnilmm
官方
pytorch
GitHub 中提及
openbmb/minicpm-v
pytorch
GitHub 中提及
rlhf-v/rlhf-v
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-object-halbench | RLAIF-V 12B | chair_i: 1.8 chair_s: 3.3 |
| image-captioning-on-object-halbench | RLAIF-V 7B | chair_i: 4.3 chair_s: 8.5 |
| visual-question-answering-on-amber | RLAIF-V 12B | Accuracy: 88 F1: 90.9 |
| visual-question-answering-on-mmhal-bench | RLAIF-V 7B | Hallucination Rate: 29.2 Score: 3.06 |
| visual-question-answering-on-mmhal-bench | RLAIF-V 12B | Hallucination Rate: 29.2 Score: 3.36 |