4 个月前

Flamingo:一种用于少样本学习的视觉语言模型

Flamingo:一种用于少样本学习的视觉语言模型

摘要

构建能够使用少量标注示例快速适应新任务的模型,是多模态机器学习研究面临的一个开放性挑战。我们介绍了Flamingo,这是一系列具备这种能力的视觉语言模型(VLM)。我们提出了关键的架构创新,旨在:(i) 桥接强大的预训练视觉模型和语言模型,(ii) 处理任意交错的视觉和文本数据序列,以及 (iii) 无缝接收图像或视频作为输入。由于其灵活性,Flamingo模型可以在包含任意交错文本和图像的大规模多模态网络语料库上进行训练,这是赋予它们上下文内少样本学习能力的关键。我们对这些模型进行了全面评估,探索并测量了它们快速适应多种图像和视频任务的能力。这些任务包括开放式任务,如视觉问答,其中模型需要根据给定的问题进行回答;描述任务,用于评估模型描述场景或事件的能力;以及封闭式任务,如多项选择题形式的视觉问答。对于谱系中的任何任务,单个Flamingo模型通过少样本学习即可实现新的最先进水平,只需用特定任务的示例提示模型即可。在众多基准测试中,Flamingo的表现超过了那些在数倍于其的任务特定数据上微调的模型。

代码仓库

基准测试

基准方法指标
action-recognition-on-rareact-
mWAP: 60.8
generative-visual-question-answering-on-pmcOpen-Flamingo
BLEU-1: 4.1
meme-classification-on-hateful-memesFlamingo (few-shot:32)
ROC-AUC: 0.700
meme-classification-on-hateful-memesFlamingo (fine-tuned)
ROC-AUC: 0.866
temporal-casual-qa-on-next-qaFlamingo(0-shot)
WUPS: 26.7
temporal-casual-qa-on-next-qaFlamingo(32-shot)
WUPS: 33.5
video-question-answering-on-situatedFlamingo-9B (4-shot)
Average Accuracy: 42.8
video-question-answering-on-situatedFlamingo-80B (0-shot)
Average Accuracy: 39.7
video-question-answering-on-situatedFlamingo-9B (0-shot)
Average Accuracy: 41.8
video-question-answering-on-situatedFlamingo-80B (4-shot)
Average Accuracy: 42.4
visual-question-answering-on-msrvtt-qa-1Flamingo (32-shot)
Accuracy: 0.310
visual-question-answering-on-msrvtt-qa-1Flamingo (0-shot)
Accuracy: 0.174
visual-question-answering-on-msrvtt-qa-1Flamingo
Accuracy: 0.474
visual-question-answering-on-ok-vqaFlamingo3B
Accuracy: 41.2
visual-question-answering-on-ok-vqaFlamingo9B
Accuracy: 44.7
visual-question-answering-on-ok-vqaFlamingo80B
Accuracy: 50.6
visual-question-answering-on-vqa-v2-test-devFlamingo 80B
Accuracy: 56.3
visual-question-answering-on-vqa-v2-test-devFlamingo 3B
Accuracy: 49.2
visual-question-answering-on-vqa-v2-test-devFlamingo 9B
Accuracy: 51.8
visual-question-answering-vqa-on-pmc-vqaOpen-Flamingo
Accuracy: 26.4
zero-shot-cross-modal-retrieval-on-coco-2014Flamingo
Image-to-text R@1: 65.9
Image-to-text R@10: 92.9
Image-to-text R@5: 87.3
Text-to-image R@1: 48.0
Text-to-image R@10: 82.1
Text-to-image R@5: 73.3
zero-shot-cross-modal-retrieval-on-flickr30kFlamingo
Image-to-text R@1: 89.3
Image-to-text R@10: 99.7
Image-to-text R@5: 98.8
Text-to-image R@1: 79.5
Text-to-image R@10: 97.9
Text-to-image R@5: 95.3
zero-shot-video-question-answer-on-starFlamingo-9B
Accuracy: 41.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Flamingo:一种用于少样本学习的视觉语言模型 | 论文 | HyperAI超神经