3 个月前

MiniGPT-4:利用先进的大型语言模型提升视觉-语言理解能力

MiniGPT-4:利用先进的大型语言模型提升视觉-语言理解能力

摘要

近期发布的GPT-4展现出非凡的多模态能力,例如可直接根据手写文字生成网站,以及识别图像中的幽默元素。这些特性在以往的视觉-语言模型中极为罕见。然而,GPT-4背后的具体技术细节仍处于保密状态。我们认为,GPT-4所展现出的增强型多模态生成能力,源于对复杂大型语言模型(LLM)的有效利用。为探究这一现象,我们提出了MiniGPT-4,该模型通过单一投影层,将一个冻结的视觉编码器与一个冻结的先进大型语言模型Vicuna进行对齐。我们的工作首次揭示:通过合理地将视觉特征与先进的大型语言模型对齐,即可具备GPT-4所展现的多种高级多模态能力,例如生成详尽的图像描述,以及基于手绘草图创建网站。此外,我们在MiniGPT-4中还观察到其他新兴能力,包括根据给定图像创作故事与诗歌、基于食物图片指导用户烹饪等。在实验过程中,我们发现仅使用短句图像描述对进行训练的模型,会产生不自然的语言输出(如重复、片段化等问题)。为解决这一问题,我们在第二阶段构建了一个包含详细图像描述的数据集,并用于模型的微调,从而显著提升了模型生成结果的可靠性与整体可用性。我们已将相关代码、预训练模型及收集的数据集公开,访问地址为:https://minigpt-4.github.io/。

基准测试

基准方法指标
spatial-reasoning-on-embspatial-benchMiniGPT4
Generation: 23.54
video-question-answering-on-mvbenchMiniGPT4
Avg.: 18.8
visual-question-answering-on-benchlmmMiniGPT4-13B
GPT-3.5 score: 34.93
visual-question-answering-on-mm-vetMiniGPT-4-14B
GPT-4 score: 24.4±0.4
Params: 14B
visual-question-answering-on-mm-vetMiniGPT-4-8B
GPT-4 score: 22.1±0.1
Params: 8B
visual-question-answering-vqa-on-5miniGPT4
Overall Accuracy: 51.0
visual-question-answering-vqa-on-core-mmMiniGPT-v2
Abductive: 13.28
Analogical: 5.69
Deductive: 11.02
Overall score: 10.43
Params: 8B

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供