3 个月前

基于冻结语言模型的多模态少样本学习

基于冻结语言模型的多模态少样本学习

摘要

当在足够大的规模下进行训练时,自回归语言模型展现出一种显著能力:仅通过几个示例提示(prompt),即可学会新的语言任务。本文提出了一种简单而有效的方法,将这种少样本学习能力迁移至多模态场景(视觉与语言结合)。我们利用图像与对应标题对齐的数据,训练一个视觉编码器,将每张图像表示为一系列连续的嵌入向量,使得一个预训练且冻结的语言模型在接收到该图像嵌入作为前缀提示后,能够生成恰当的标题。由此构建的系统是一种多模态少样本学习器,其令人惊讶的能力在于:在仅提供由多个交错排列的图像与文本嵌入构成的示例序列作为条件时,能够快速掌握多种新任务。我们通过在一个涵盖多种既有与新设基准测试的统一模型上进行评估,证明该系统能够迅速学习新物体的词汇表达、识别全新的视觉类别,仅凭少量示例即可完成视觉问答任务,并有效利用外部知识。

基准测试

基准方法指标
visual-question-answering-on-ok-vqaFrozen
Accuracy: 5.9
visual-question-answering-on-vqa-v2-valFrozen
Accuracy: 29.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于冻结语言模型的多模态少样本学习 | 论文 | HyperAI超神经