Yuan YaoTianyu YuAo ZhangChongyi WangJunbo CuiHongji ZhuTianchi CaiHaoyu LiWeilin ZhaoZhihui HeQianyu ChenHuarong ZhouZhensheng ZouHaoye ZhangShengding HuZhi ZhengJie ZhouJie CaiXu HanGuoyang ZengDahai LiZhiyuan LiuMaosong Sun

摘要
近期,多模态大语言模型(Multimodal Large Language Models, MLLMs)的迅猛发展从根本上重塑了人工智能研究和行业的格局,为实现下一个AI里程碑指明了一条充满希望的道路。然而,仍有许多重大挑战阻碍了MLLMs在实际应用中的普及。其中最显著的挑战来自于运行具有大量参数和广泛计算需求的MLLMs所需的巨大成本。因此,大多数MLLMs需要部署在高性能的云服务器上,这极大地限制了它们在移动设备、离线环境、能耗敏感以及隐私保护场景中的应用范围。在这项工作中,我们介绍了MiniCPM-V系列高效多模态大语言模型。通过整合最新的架构、预训练和对齐技术,最新版本的MiniCPM-Llama3-V 2.5具备以下几项显著特点:(1)卓越性能,在涵盖11个流行基准测试的综合评估OpenCompass中超越了GPT-4V-1106、Gemini Pro和Claude 3;(2)强大的光学字符识别(OCR)能力和任意宽高比下的180万像素高分辨率图像感知;(3)低幻觉率,表现出可靠的行为;(4)支持30多种语言的多语言能力;(5)能够在移动设备上高效部署。更重要的是,MiniCPM-V可以被视为一个有前景趋势的代表实例:实现可用级别(如GPT-4V)性能所需的模型规模正在迅速减小,同时终端设备的计算能力也在快速增长。这两者共同表明,在终端设备上部署GPT-4V级别的MLLMs正变得越来越可行,有望在未来不久解锁更广泛的实际AI应用场景。
代码仓库
OpenBMB/MiniCPM-o
官方
pytorch
GitHub 中提及
openbmb/minicpm-v
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-relation-extraction-on-vinoground | MiniCPM-2.6 | Group Score: 11.2 Text Score: 32.6 Video Score: 29.2 |
| zero-shot-video-question-answer-on-video-mme-1 | MiniCPM-V 2.6 (8B) | Accuracy (%): 63.7 |