8 个月前

Junnan Li Dongxu Li Silvio Savarese Steven Hoi

摘要

视觉-语言预训练的成本由于大规模模型的端到端训练而变得越来越高昂。本文提出了一种通用且高效的预训练策略——BLIP-2，该策略通过利用现成的冻结预训练图像编码器和冻结的大规模语言模型来引导视觉-语言预训练。BLIP-2 使用一个轻量级的查询Transformer（Querying Transformer）来弥合模态差距，该Transformer在两个阶段进行预训练。第一阶段从冻结的图像编码器中引导视觉-语言表示学习；第二阶段从冻结的语言模型中引导视觉到语言的生成学习。尽管可训练参数显著少于现有方法，BLIP-2 在各种视觉-语言任务上仍达到了最先进的性能。例如，在零样本VQAv2任务上，我们的模型以少54倍的可训练参数超越了Flamingo80B 8.7%。我们还展示了该模型在零样本图像到文本生成方面的能力，能够遵循自然语言指令。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Junnan Li Dongxu Li Silvio Savarese Steven Hoi

摘要

视觉-语言预训练的成本由于大规模模型的端到端训练而变得越来越高昂。本文提出了一种通用且高效的预训练策略——BLIP-2，该策略通过利用现成的冻结预训练图像编码器和冻结的大规模语言模型来引导视觉-语言预训练。BLIP-2 使用一个轻量级的查询Transformer（Querying Transformer）来弥合模态差距，该Transformer在两个阶段进行预训练。第一阶段从冻结的图像编码器中引导视觉-语言表示学习；第二阶段从冻结的语言模型中引导视觉到语言的生成学习。尽管可训练参数显著少于现有方法，BLIP-2 在各种视觉-语言任务上仍达到了最先进的性能。例如，在零样本VQAv2任务上，我们的模型以少54倍的可训练参数超越了Flamingo80B 8.7%。我们还展示了该模型在零样本图像到文本生成方面的能力，能够遵循自然语言指令。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供