HyperAIHyperAI

Command Palette

Search for a command to run...

从数据视角高效多模态学习

Muyang He extsuperscript1,2*, Yexin Liu extsuperscript1,3*, Boya Wu extsuperscript1*, Jianhao Yuan extsuperscript4, Yueze Wang extsuperscript1, Tiejun Huang extsuperscript1,2, Bo Zhao extsuperscript1,5†

摘要

多模态大语言模型(MLLMs)在通用视觉理解和推理任务中展示了显著的能力。然而,由于训练和推理过程中巨大的计算成本,其部署受到了限制,这使得更广泛的研究和用户群体难以获得这些模型。一个直接的解决方案是利用较小的预训练视觉和语言模型,但这不可避免地会导致性能显著下降。在本文中,我们展示了通过高质量训练数据训练出一个更小但性能更好的MLLM的可能性。具体而言,我们引入了Bunny,这是一个轻量级的MLLM系列,具有灵活的视觉和语言骨干网络,可以从精选的训练数据中高效进行多模态学习。实验结果表明,我们的Bunny-4B/8B在多个基准测试中优于当前最先进的大型MLLMs。我们希望这项工作能够为社区提供一个干净且灵活的开源工具,以促进进一步的研究和开发。代码、模型和数据可以在https://github.com/BAAI-DCAI/Bunny 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供