@article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} } @article{yu2024rlaifv, title={RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness}, author={Tianyu Yu and Haoye Zhang and Qiming Li and Qixin Xu and Yuan Yao and Da Chen and Xiaoman Lu and Ganqu Cui and Yunkai Dang and Taiwen He and Xiaocheng Feng and Jun Song and Bo Zheng and Zhiyuan Liu and Tat-Seng Chua and Maosong Sun}, journal={arXiv preprint arXiv:2405.17220}, year={2024}, } @misc{yu2025minicpmv45cookingefficient, title={MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe}, author={Tianyu Yu and Zefan Wang and Chongyi Wang and Fuwei Huang and Wenshuo Ma and Zhihui He and Tianchi Cai and Weize Chen and Yuxiang Huang and Yuanqian Zhao and Bokai Xu and Junbo Cui and Yingjing Xu and Liqing Ruan and Luoyuan Zhang and Hanyu Liu and Jingkun Tang and Hongyuan Liu and Qining Guo and Wenhao Hu and Bingxiang He and Jie Zhou and Jie Cai and Ji Qi and Zonghao Guo and Chi Chen and Guoyang Zeng and Yuxuan Li and Ganqu Cui and Ning Ding and Xu Han and Yuan Yao and Zhiyuan Liu and Maosong Sun}, year={2025}, eprint={2509.18154}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2509.18154}, }

日期

2 年前

大小

11.77 GB

数据集组织

论文 URL

arxiv.org

标签

多模态

RLAIF-V 数据集是一个由 AI 生成的多模态偏好数据集，它覆盖了各种任务和领域。该数据集包含超过 44,757 组高质量的对比对，用于训练和评估多模态大型语言模型 (MLLMs）。 RLAIF-V 数据集通过一个新颖的方法，采用开源大模型来对模型响应进行去混杂处理，并提供高质量的反馈数据，以减少不同 MLLMs 的幻觉现象。此外，RLAIF-V 数据集还用于训练 MiniCPM-Llama3-V 2.5 模型，这代表了第一个端侧 GPT-4V 级别的 MLLM17 。 RLAIF-V 项目已经开源了代码、权重 (7B 、 12B) 和数据，以便研究社区使用和进一步研究。 RLAIF-V 数据集的主要特点包括：

高质量反馈数据：数据集使用的有效减少不同 MLLMs 的幻觉。
开源：数据集是完全开源的，允许研究者自由访问和使用。
多任务和多领域：数据集涵盖广泛的任务和领域，提供多样化的偏好数据。 RLAIF-V 数据集的许可证是 CC BY NC 4.0，仅允许非商业用途，并且使用该数据集训练的模型不应在研究目的之外使用。

Citation

@article{yu2023rlhf,
title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback},
author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others},
journal={arXiv preprint arXiv:2312.00849},
year={2023}
}
@article{yu2024rlaifv,
title={RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness},
author={Tianyu Yu and Haoye Zhang and Qiming Li and Qixin Xu and Yuan Yao and Da Chen and Xiaoman Lu and Ganqu Cui and Yunkai Dang and Taiwen He and Xiaocheng Feng and Jun Song and Bo Zheng and Zhiyuan Liu and Tat-Seng Chua and Maosong Sun},
journal={arXiv preprint arXiv:2405.17220},
year={2024},
}
@misc{yu2025minicpmv45cookingefficient,
title={MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe},
author={Tianyu Yu and Zefan Wang and Chongyi Wang and Fuwei Huang and Wenshuo Ma and Zhihui He and Tianchi Cai and Weize Chen and Yuxiang Huang and Yuanqian Zhao and Bokai Xu and Junbo Cui and Yingjing Xu and Liqing Ruan and Luoyuan Zhang and Hanyu Liu and Jingkun Tang and Hongyuan Liu and Qining Guo and Wenhao Hu and Bingxiang He and Jie Zhou and Jie Cai and Ji Qi and Zonghao Guo and Chi Chen and Guoyang Zeng and Yuxuan Li and Ganqu Cui and Ning Ding and Xu Han and Yuan Yao and Zhiyuan Liu and Maosong Sun},
year={2025},
eprint={2509.18154},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2509.18154},
}

RLAIF-V-Dataset.torrent

做种 1正在下载 0已完成 215总下载量 307

RLAIF-V-Dataset/
- README.md
  1.86 KB
- README.txt
  3.72 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 support@hyper.ai 联系我们,我们将及时审核并删除。

FigureBench 科学插图生成基准数据集

Command Palette

RLAIF-V-Dataset 大规模多模态偏好数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

RLAIF-V-Dataset 大规模多模态偏好数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

AgentTrove 智能体交互轨迹数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

RLAIF-V-Dataset 大规模多模态偏好数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

AgentTrove 智能体交互轨迹数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

AgentTrove 智能体交互轨迹数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

BRIGHT 灾害建筑评估数据集

OmniParsingBench 多模态解析能力评估数据集

MDPBench 多语言文档解析基准数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集