3 个月前

RLHF-V:通过细粒度修正型人类反馈实现行为对齐以构建可信的多模态大语言模型

RLHF-V:通过细粒度修正型人类反馈实现行为对齐以构建可信的多模态大语言模型

摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来在多模态理解、推理与交互方面展现出令人瞩目的能力。然而,现有MLLMs普遍面临严重的幻觉问题,即生成的文本与关联图像缺乏事实依据,导致模型输出不可信,难以在现实世界应用中(尤其是高风险场景)可靠使用。为应对这一挑战,我们提出RLHF-V,通过细粒度修正型人类反馈实现行为对齐,从而提升MLLM的可信度。具体而言,RLHF-V收集人类在文本片段层面针对幻觉现象的修正反馈,并在此基础上进行密集的直接偏好优化(dense direct preference optimization)。在五个基准测试中开展的全面实验(涵盖自动评估与人工评估)表明,RLHF-V能够显著提升MLLM的可信行为表现,同时具备出色的训练数据与计算效率。值得注意的是,仅使用1,400个标注样本,RLHF-V便将基础MLLM的幻觉率降低34.8%,显著优于基于10,000个标注样本训练的同期模型LLaVA-RLHF。最终模型在开源MLLM中达到了当前最先进的可信度水平,并在防止因过度泛化引发的幻觉方面,表现出优于GPT-4V的鲁棒性。相关代码、模型及数据已开源,访问地址为:https://github.com/RLHF-V/RLHF-V。

代码仓库

tidedra/vl-rlhf
pytorch
GitHub 中提及
exgc/r1v-free
pytorch
GitHub 中提及
openbmb/minicpm-v
pytorch
GitHub 中提及
rlhf-v/rlhf-v
官方
GitHub 中提及

基准测试

基准方法指标
image-captioning-on-object-halbenchRLHF-V
chair_i: 7.5
chair_s: 12.2
visual-question-answering-on-vqa-v2-1RLHF-V
Accuracy: 80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RLHF-V:通过细粒度修正型人类反馈实现行为对齐以构建可信的多模态大语言模型 | 论文 | HyperAI超神经