4 个月前

MiniGPT-v2:大型语言模型作为视觉-语言多任务学习的统一接口

MiniGPT-v2:大型语言模型作为视觉-语言多任务学习的统一接口

摘要

大型语言模型已展现出其作为各种语言相关应用通用接口的卓越能力。受此启发,我们致力于构建一个统一的接口,以完成包括图像描述、视觉问答和视觉定位在内的多种视觉-语言任务。挑战在于如何使用单一模型通过简单的多模态指令有效执行多样化的视觉-语言任务。为此,我们引入了MiniGPT-v2,该模型可以作为一个统一接口,更好地处理各种视觉-语言任务。我们在训练模型时提出了使用不同的任务标识符。这些标识符使我们的模型能够轻松地区分每个任务指令,并提高每个任务的学习效率。经过三个阶段的训练后,实验结果表明,与其它视觉-语言通用模型相比,MiniGPT-v2在多个视觉问答和视觉定位基准测试中表现出色。我们的模型和代码可在https://minigpt-v2.github.io/ 获取。

代码仓库

zebangcheng/emotion-llama
pytorch
GitHub 中提及
vision-cair/minigpt-4
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-coloninst-v1-seenMiniGPT-v2 (w/ LoRA, w/ extra data)
Accuray: 90.00
image-classification-on-coloninst-v1-seenMiniGPT-v2 (w/ LoRA, w/o extra data)
Accuray: 91.49
image-classification-on-coloninst-v1-unseenMiniGPT-v2 (w/ LoRA, w/ extra data)
Accuray: 76.82
image-classification-on-coloninst-v1-unseenMiniGPT-v2 (w/ LoRA, w/o extra data)
Accuray: 77.93
natural-language-visual-grounding-onMiniGPT-v2
Accuracy (%): 5.7
referring-expression-generation-on-coloninstMiniGPT-v2 (w/ LoRA, w/o extra data)
Accuray: 94.69
referring-expression-generation-on-coloninstMiniGPT-v2 (w/ LoRA, w/ extra data)
Accuray: 87.65
referring-expression-generation-on-coloninst-1MiniGPT-v2 (w/ LoRA, w/ extra data)
Accuray: 70.23
referring-expression-generation-on-coloninst-1MiniGPT-v2 (w/ LoRA, w/o extra data)
Accuray: 72.05
visual-question-answering-on-benchlmmMiniGPTv2-7B
GPT-3.5 score: 30.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MiniGPT-v2:大型语言模型作为视觉-语言多任务学习的统一接口 | 论文 | HyperAI超神经