4 个月前

视觉指令调优

视觉指令调优

摘要

通过使用机器生成的指令跟随数据对大型语言模型(LLMs)进行指令调优,已经提高了这些模型在新任务上的零样本能力,但在多模态领域这一方法的研究较少。本文中,我们首次尝试仅使用GPT-4生成多模态语言-图像指令跟随数据。通过对这种生成的数据进行指令调优,我们引入了LLaVA:大型语言和视觉助手,这是一个端到端训练的大型多模态模型,连接了一个视觉编码器和一个大型语言模型,用于通用的视觉和语言理解。初步实验表明,LLaVA展示了令人印象深刻的多模态聊天能力,在某些情况下表现出与多模态GPT-4相似的行为,处理未见过的图像/指令时尤为如此,并且在合成的多模态指令跟随数据集上取得了相对于GPT-4 85.1%的相对得分。当在Science QA数据集上进行微调时,LLaVA与GPT-4的协同作用达到了92.53%的新最高准确率。我们公开发布了由GPT-4生成的视觉指令调优数据、我们的模型以及代码库。

代码仓库

llava-annonymous/llava
pytorch
GitHub 中提及
ZhangYiqun018/StickerConv
pytorch
GitHub 中提及
qiujihao19/artemis
pytorch
GitHub 中提及
haotian-liu/LLaVA
官方
pytorch
GitHub 中提及
sshh12/multi_token
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
dinhvietcuong1996/icme25-inova
pytorch
GitHub 中提及
sunsmarterjie/chatterbox
pytorch
GitHub 中提及
skunkworksai/bakllava
pytorch
GitHub 中提及
LLaVA-VL/LLaVA-NeXT
pytorch
GitHub 中提及
camenduru/llava-colab
GitHub 中提及
tabtoyou/kollava
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-coloninst-v1-seenLLaVA-v1 (w/ LoRA, w/ extra data)
Accuray: 89.61
image-classification-on-coloninst-v1-seenLLaVA-v1 (w/ LoRA, w/o extra data)
Accuray: 87.86
image-classification-on-coloninst-v1-unseenLLaVA-v1 (w/ LoRA, w/ extra data)
Accuray: 42.17
image-classification-on-coloninst-v1-unseenLLaVA-v1 (w/ LoRA, w/o extra data)
Accuray: 72.08
mmr-total-on-mrr-benchmarkLLaVA-NEXT-13B
Total Column Score: 335
mmr-total-on-mrr-benchmarkLLaVA-NEXT-34B
Total Column Score: 412
mmr-total-on-mrr-benchmarkLLaVA-1.5-13B
Total Column Score: 243
referring-expression-generation-on-coloninstLLaVA-v1 (w/ LoRA, w/o extra data)
Accuray: 84.55
referring-expression-generation-on-coloninstLLaVA-v1 (w/ LoRA, w/ extra data)
Accuray: 86.87
referring-expression-generation-on-coloninst-1LLaVA-v1 (w/ LoRA, w/ extra data)
Accuray: 46.85
referring-expression-generation-on-coloninst-1LLaVA-v1 (w/ LoRA, w/o extra data)
Accuray: 68.11
spatial-reasoning-on-embspatial-benchLLaVA-1.6
Generation: 35.19
video-question-answering-on-mvbenchLLaVa
Avg.: 36.0
visual-question-answering-on-benchlmmLLaVA-1.5-7B
GPT-3.5 score: 46.83
visual-question-answering-on-benchlmmLLaVA-1-13B
GPT-3.5 score: 43.50

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供