1 个月前

MiniCPM-V 4.5:通过架构、数据与训练配方实现高效MLLMs的烹饪

MiniCPM-V 4.5:通过架构、数据与训练配方实现高效MLLMs的烹饪

摘要

多模态大语言模型(MLLMs)正经历快速发展,已成为人工智能技术的前沿领域。然而,其训练与推理效率已成为制约MLLMs进一步普及与规模化应用的核心瓶颈。为应对这一挑战,我们提出MiniCPM-V 4.5,一款参数量为80亿(8B)的高效且性能强劲的模型。我们在模型架构、数据策略与训练方法三个方面引入三项核心改进:采用统一的3D-Resampler模型架构,实现对图像与视频的高密度紧凑编码;构建统一的学习范式,无需复杂的数据工程即可同时支持文档知识理解与文本识别;提出混合强化学习策略,有效提升模型在短时与长时推理模式下的表现能力。在OpenCompass评测体系中的全面实验结果表明,MiniCPM-V 4.5在多项指标上超越了广泛使用的商业模型(如GPT-4o-latest),并显著优于参数量更大的开源模型(如Qwen2.5-VL 72B)。尤为突出的是,该模型在实现卓越性能的同时,展现出极高的效率。例如,在广泛采用的VideoMME基准测试中,MiniCPM-V 4.5在参数规模低于300亿的模型中达到领先水平,其GPU显存占用仅为Qwen2.5-VL 7B的46.7%,推理时间仅为其8.7%。

基准测试

基准方法指标
optical-character-recognition-on-ocrbench-v2-chineseMiniCPM-V-4.5-8B
Accuracy: 58.8
optical-character-recognition-on-ocrbench-v2-englishMiniCPM-V-4.5-8B
Accuracy: 48.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MiniCPM-V 4.5:通过架构、数据与训练配方实现高效MLLMs的烹饪 | 论文 | HyperAI超神经