
摘要
多模态大语言模型(MLLMs)在通用视觉理解和推理任务中展示了显著的能力。然而,由于训练和推理过程中巨大的计算成本,其部署受到了限制,这使得更广泛的研究和用户群体难以获得这些模型。一个直接的解决方案是利用较小的预训练视觉和语言模型,但这不可避免地会导致性能显著下降。在本文中,我们展示了通过高质量训练数据训练出一个更小但性能更好的MLLM的可能性。具体而言,我们引入了Bunny,这是一个轻量级的MLLM系列,具有灵活的视觉和语言骨干网络,可以从精选的训练数据中高效进行多模态学习。实验结果表明,我们的Bunny-4B/8B在多个基准测试中优于当前最先进的大型MLLMs。我们希望这项工作能够为社区提供一个干净且灵活的开源工具,以促进进一步的研究和开发。代码、模型和数据可以在https://github.com/BAAI-DCAI/Bunny 获取。
代码仓库
baai-dcai/bunny
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-coloninst-v1-seen | Bunny-v1.0-3B (w/ LoRA, w/o extra data) | Accuray: 91.16 |
| image-classification-on-coloninst-v1-seen | Bunny-v1.0-3B (w/ LoRA, w/ extra data) | Accuray: 92.47 |
| image-classification-on-coloninst-v1-unseen | Bunny-v1.0-3B (w/ LoRA, w/ extra data) | Accuray: 79.50 |
| image-classification-on-coloninst-v1-unseen | Bunny-v1.0-3B (w/ LoRA, w/o extra data) | Accuray: 75.50 |
| referring-expression-generation-on-coloninst | Bunny-v1.0-3B (w/ LoRA, w/ extra data) | Accuray: 96.02 |
| referring-expression-generation-on-coloninst | Bunny-v1.0-3B (w/ LoRA, w/o extra data) | Accuray: 96.61 |
| referring-expression-generation-on-coloninst-1 | Bunny-v1.0-3B (w/ LoRA, w/ extra data) | Accuray: 75.08 |
| referring-expression-generation-on-coloninst-1 | Bunny-v1.0-3B (w/ LoRA, w/o extra data) | Accuray: 69.45 |