4 个月前

MiniCPM-V:手机上的GPT-4V水平多模态语言模型

MiniCPM-V:手机上的GPT-4V水平多模态语言模型

摘要

近期,多模态大语言模型(Multimodal Large Language Models, MLLMs)的迅猛发展从根本上重塑了人工智能研究和行业的格局,为实现下一个AI里程碑指明了一条充满希望的道路。然而,仍有许多重大挑战阻碍了MLLMs在实际应用中的普及。其中最显著的挑战来自于运行具有大量参数和广泛计算需求的MLLMs所需的巨大成本。因此,大多数MLLMs需要部署在高性能的云服务器上,这极大地限制了它们在移动设备、离线环境、能耗敏感以及隐私保护场景中的应用范围。在这项工作中,我们介绍了MiniCPM-V系列高效多模态大语言模型。通过整合最新的架构、预训练和对齐技术,最新版本的MiniCPM-Llama3-V 2.5具备以下几项显著特点:(1)卓越性能,在涵盖11个流行基准测试的综合评估OpenCompass中超越了GPT-4V-1106、Gemini Pro和Claude 3;(2)强大的光学字符识别(OCR)能力和任意宽高比下的180万像素高分辨率图像感知;(3)低幻觉率,表现出可靠的行为;(4)支持30多种语言的多语言能力;(5)能够在移动设备上高效部署。更重要的是,MiniCPM-V可以被视为一个有前景趋势的代表实例:实现可用级别(如GPT-4V)性能所需的模型规模正在迅速减小,同时终端设备的计算能力也在快速增长。这两者共同表明,在终端设备上部署GPT-4V级别的MLLMs正变得越来越可行,有望在未来不久解锁更广泛的实际AI应用场景。

代码仓库

OpenBMB/MiniCPM-o
官方
pytorch
GitHub 中提及
openbmb/minicpm-v
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-relation-extraction-on-vinogroundMiniCPM-2.6
Group Score: 11.2
Text Score: 32.6
Video Score: 29.2
zero-shot-video-question-answer-on-video-mme-1MiniCPM-V 2.6 (8B)
Accuracy (%): 63.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MiniCPM-V:手机上的GPT-4V水平多模态语言模型 | 论文 | HyperAI超神经