
摘要
近期发布的GPT-4展现出非凡的多模态能力,例如可直接根据手写文字生成网站,以及识别图像中的幽默元素。这些特性在以往的视觉-语言模型中极为罕见。然而,GPT-4背后的具体技术细节仍处于保密状态。我们认为,GPT-4所展现出的增强型多模态生成能力,源于对复杂大型语言模型(LLM)的有效利用。为探究这一现象,我们提出了MiniGPT-4,该模型通过单一投影层,将一个冻结的视觉编码器与一个冻结的先进大型语言模型Vicuna进行对齐。我们的工作首次揭示:通过合理地将视觉特征与先进的大型语言模型对齐,即可具备GPT-4所展现的多种高级多模态能力,例如生成详尽的图像描述,以及基于手绘草图创建网站。此外,我们在MiniGPT-4中还观察到其他新兴能力,包括根据给定图像创作故事与诗歌、基于食物图片指导用户烹饪等。在实验过程中,我们发现仅使用短句图像描述对进行训练的模型,会产生不自然的语言输出(如重复、片段化等问题)。为解决这一问题,我们在第二阶段构建了一个包含详细图像描述的数据集,并用于模型的微调,从而显著提升了模型生成结果的可靠性与整体可用性。我们已将相关代码、预训练模型及收集的数据集公开,访问地址为:https://minigpt-4.github.io/。
代码仓库
zyang1580/binllm
pytorch
GitHub 中提及
vision-cair/minigpt-4
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| spatial-reasoning-on-embspatial-bench | MiniGPT4 | Generation: 23.54 |
| video-question-answering-on-mvbench | MiniGPT4 | Avg.: 18.8 |
| visual-question-answering-on-benchlmm | MiniGPT4-13B | GPT-3.5 score: 34.93 |
| visual-question-answering-on-mm-vet | MiniGPT-4-14B | GPT-4 score: 24.4±0.4 Params: 14B |
| visual-question-answering-on-mm-vet | MiniGPT-4-8B | GPT-4 score: 22.1±0.1 Params: 8B |
| visual-question-answering-vqa-on-5 | miniGPT4 | Overall Accuracy: 51.0 |
| visual-question-answering-vqa-on-core-mm | MiniGPT-v2 | Abductive: 13.28 Analogical: 5.69 Deductive: 11.02 Overall score: 10.43 Params: 8B |