4 个月前

从数据视角高效多模态学习

从数据视角高效多模态学习

摘要

多模态大语言模型(MLLMs)在通用视觉理解和推理任务中展示了显著的能力。然而,由于训练和推理过程中巨大的计算成本,其部署受到了限制,这使得更广泛的研究和用户群体难以获得这些模型。一个直接的解决方案是利用较小的预训练视觉和语言模型,但这不可避免地会导致性能显著下降。在本文中,我们展示了通过高质量训练数据训练出一个更小但性能更好的MLLM的可能性。具体而言,我们引入了Bunny,这是一个轻量级的MLLM系列,具有灵活的视觉和语言骨干网络,可以从精选的训练数据中高效进行多模态学习。实验结果表明,我们的Bunny-4B/8B在多个基准测试中优于当前最先进的大型MLLMs。我们希望这项工作能够为社区提供一个干净且灵活的开源工具,以促进进一步的研究和开发。代码、模型和数据可以在https://github.com/BAAI-DCAI/Bunny 获取。

代码仓库

baai-dcai/bunny
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-coloninst-v1-seenBunny-v1.0-3B (w/ LoRA, w/o extra data)
Accuray: 91.16
image-classification-on-coloninst-v1-seenBunny-v1.0-3B (w/ LoRA, w/ extra data)
Accuray: 92.47
image-classification-on-coloninst-v1-unseenBunny-v1.0-3B (w/ LoRA, w/ extra data)
Accuray: 79.50
image-classification-on-coloninst-v1-unseenBunny-v1.0-3B (w/ LoRA, w/o extra data)
Accuray: 75.50
referring-expression-generation-on-coloninstBunny-v1.0-3B (w/ LoRA, w/ extra data)
Accuray: 96.02
referring-expression-generation-on-coloninstBunny-v1.0-3B (w/ LoRA, w/o extra data)
Accuray: 96.61
referring-expression-generation-on-coloninst-1Bunny-v1.0-3B (w/ LoRA, w/ extra data)
Accuray: 75.08
referring-expression-generation-on-coloninst-1Bunny-v1.0-3B (w/ LoRA, w/o extra data)
Accuray: 69.45

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从数据视角高效多模态学习 | 论文 | HyperAI超神经