
摘要
大型语言模型已展现出其作为各种语言相关应用通用接口的卓越能力。受此启发,我们致力于构建一个统一的接口,以完成包括图像描述、视觉问答和视觉定位在内的多种视觉-语言任务。挑战在于如何使用单一模型通过简单的多模态指令有效执行多样化的视觉-语言任务。为此,我们引入了MiniGPT-v2,该模型可以作为一个统一接口,更好地处理各种视觉-语言任务。我们在训练模型时提出了使用不同的任务标识符。这些标识符使我们的模型能够轻松地区分每个任务指令,并提高每个任务的学习效率。经过三个阶段的训练后,实验结果表明,与其它视觉-语言通用模型相比,MiniGPT-v2在多个视觉问答和视觉定位基准测试中表现出色。我们的模型和代码可在https://minigpt-v2.github.io/ 获取。
代码仓库
zebangcheng/emotion-llama
pytorch
GitHub 中提及
vision-cair/minigpt-4
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-coloninst-v1-seen | MiniGPT-v2 (w/ LoRA, w/ extra data) | Accuray: 90.00 |
| image-classification-on-coloninst-v1-seen | MiniGPT-v2 (w/ LoRA, w/o extra data) | Accuray: 91.49 |
| image-classification-on-coloninst-v1-unseen | MiniGPT-v2 (w/ LoRA, w/ extra data) | Accuray: 76.82 |
| image-classification-on-coloninst-v1-unseen | MiniGPT-v2 (w/ LoRA, w/o extra data) | Accuray: 77.93 |
| natural-language-visual-grounding-on | MiniGPT-v2 | Accuracy (%): 5.7 |
| referring-expression-generation-on-coloninst | MiniGPT-v2 (w/ LoRA, w/o extra data) | Accuray: 94.69 |
| referring-expression-generation-on-coloninst | MiniGPT-v2 (w/ LoRA, w/ extra data) | Accuray: 87.65 |
| referring-expression-generation-on-coloninst-1 | MiniGPT-v2 (w/ LoRA, w/ extra data) | Accuray: 70.23 |
| referring-expression-generation-on-coloninst-1 | MiniGPT-v2 (w/ LoRA, w/o extra data) | Accuray: 72.05 |
| visual-question-answering-on-benchlmm | MiniGPTv2-7B | GPT-3.5 score: 30.1 |