8 个月前

多模态表征

Wenliang Dai Junnan Li Dongxu Li Anthony Meng Huat Tiong Junqi Zhao Weisheng Wang Boyang Li Pascale Fung Steven Hoi

摘要

大规模预训练和指令调优在创建具有广泛能力的通用语言模型方面取得了成功。然而，由于额外的视觉输入导致的丰富输入分布和任务多样性，构建通用的视觉-语言模型仍然充满挑战。尽管视觉-语言预训练已经得到了广泛研究，但视觉-语言指令调优仍处于探索阶段。本文中，我们基于预训练的BLIP-2模型，对视觉-语言指令调优进行了系统而全面的研究。我们收集了26个公开可用的数据集，涵盖了多种任务和能力，并将其转换为指令调优格式。此外，我们引入了一种指令感知的Query Transformer（查询变换器），该模型能够提取与给定指令相关的有用特征。通过在13个内部数据集上进行训练，InstructBLIP在所有13个外部数据集上均达到了最先进的零样本性能，显著优于BLIP-2和更大的Flamingo模型。我们的模型在针对个别下游任务进行微调时也表现出色（例如，在包含图像上下文的ScienceQA问题上达到90.7%的准确率）。此外，我们还从定性的角度展示了InstructBLIP相对于同期多模态模型的优势。所有InstructBLIP模型均已开源，代码库地址为https://github.com/salesforce/LAVIS/tree/main/projects/instructblip。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Wenliang Dai Junnan Li Dongxu Li Anthony Meng Huat Tiong Junqi Zhao Weisheng Wang Boyang Li Pascale Fung Steven Hoi

摘要

大规模预训练和指令调优在创建具有广泛能力的通用语言模型方面取得了成功。然而，由于额外的视觉输入导致的丰富输入分布和任务多样性，构建通用的视觉-语言模型仍然充满挑战。尽管视觉-语言预训练已经得到了广泛研究，但视觉-语言指令调优仍处于探索阶段。本文中，我们基于预训练的BLIP-2模型，对视觉-语言指令调优进行了系统而全面的研究。我们收集了26个公开可用的数据集，涵盖了多种任务和能力，并将其转换为指令调优格式。此外，我们引入了一种指令感知的Query Transformer（查询变换器），该模型能够提取与给定指令相关的有用特征。通过在13个内部数据集上进行训练，InstructBLIP在所有13个外部数据集上均达到了最先进的零样本性能，显著优于BLIP-2和更大的Flamingo模型。我们的模型在针对个别下游任务进行微调时也表现出色（例如，在包含图像上下文的ScienceQA问题上达到90.7%的准确率）。此外，我们还从定性的角度展示了InstructBLIP相对于同期多模态模型的优势。所有InstructBLIP模型均已开源，代码库地址为https://github.com/salesforce/LAVIS/tree/main/projects/instructblip。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供