6 个月前

多模态表征

Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Zhewei Yao Kurt Keutzer

摘要

现有的大多数视觉-语言（Vision-and-Language, V&L）模型依赖于预训练的视觉编码器，并利用相对较小规模的人工标注数据集（相较于网络爬取的数据）来感知视觉世界。然而，已有研究表明，大规模预训练通常能够带来更优的泛化性能。例如，CLIP（对比语言-图像预训练）在海量图像-标题配对数据上进行训练，已在多种视觉任务中展现出强大的零样本（zero-shot）能力。为了进一步探究CLIP所带来的优势，本文提出在两类典型场景下将CLIP作为视觉编码器集成到多种V&L模型中：1）将CLIP嵌入特定任务的微调流程中；2）将CLIP与V&L预训练相结合，并迁移到下游任务。实验结果表明，CLIP显著优于广泛使用的、基于领域内人工标注数据训练的视觉编码器（如Bottom-Up-Top-Down）。我们在多个V&L任务上取得了具有竞争力甚至更优的性能，尤其在视觉问答（Visual Question Answering）、视觉蕴含（Visual Entailment）以及视觉语言导航（V&L Navigation）任务上达到了新的最先进水平。相关代码已开源，地址为：https://github.com/clip-vil/CLIP-ViL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Zhewei Yao Kurt Keutzer

摘要

现有的大多数视觉-语言（Vision-and-Language, V&L）模型依赖于预训练的视觉编码器，并利用相对较小规模的人工标注数据集（相较于网络爬取的数据）来感知视觉世界。然而，已有研究表明，大规模预训练通常能够带来更优的泛化性能。例如，CLIP（对比语言-图像预训练）在海量图像-标题配对数据上进行训练，已在多种视觉任务中展现出强大的零样本（zero-shot）能力。为了进一步探究CLIP所带来的优势，本文提出在两类典型场景下将CLIP作为视觉编码器集成到多种V&L模型中：1）将CLIP嵌入特定任务的微调流程中；2）将CLIP与V&L预训练相结合，并迁移到下游任务。实验结果表明，CLIP显著优于广泛使用的、基于领域内人工标注数据训练的视觉编码器（如Bottom-Up-Top-Down）。我们在多个V&L任务上取得了具有竞争力甚至更优的性能，尤其在视觉问答（Visual Question Answering）、视觉蕴含（Visual Entailment）以及视觉语言导航（V&L Navigation）任务上达到了新的最先进水平。相关代码已开源，地址为：https://github.com/clip-vil/CLIP-ViL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供