6 个月前

多模态表征

Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill

摘要

当在足够大的规模下进行训练时，自回归语言模型展现出一种显著能力：仅通过几个示例提示（prompt），即可学会新的语言任务。本文提出了一种简单而有效的方法，将这种少样本学习能力迁移至多模态场景（视觉与语言结合）。我们利用图像与对应标题对齐的数据，训练一个视觉编码器，将每张图像表示为一系列连续的嵌入向量，使得一个预训练且冻结的语言模型在接收到该图像嵌入作为前缀提示后，能够生成恰当的标题。由此构建的系统是一种多模态少样本学习器，其令人惊讶的能力在于：在仅提供由多个交错排列的图像与文本嵌入构成的示例序列作为条件时，能够快速掌握多种新任务。我们通过在一个涵盖多种既有与新设基准测试的统一模型上进行评估，证明该系统能够迅速学习新物体的词汇表达、识别全新的视觉类别，仅凭少量示例即可完成视觉问答任务，并有效利用外部知识。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill

摘要

当在足够大的规模下进行训练时，自回归语言模型展现出一种显著能力：仅通过几个示例提示（prompt），即可学会新的语言任务。本文提出了一种简单而有效的方法，将这种少样本学习能力迁移至多模态场景（视觉与语言结合）。我们利用图像与对应标题对齐的数据，训练一个视觉编码器，将每张图像表示为一系列连续的嵌入向量，使得一个预训练且冻结的语言模型在接收到该图像嵌入作为前缀提示后，能够生成恰当的标题。由此构建的系统是一种多模态少样本学习器，其令人惊讶的能力在于：在仅提供由多个交错排列的图像与文本嵌入构成的示例序列作为条件时，能够快速掌握多种新任务。我们通过在一个涵盖多种既有与新设基准测试的统一模型上进行评估，证明该系统能够迅速学习新物体的词汇表达、识别全新的视觉类别，仅凭少量示例即可完成视觉问答任务，并有效利用外部知识。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供