6 个月前

多模态表征

统一多模态

Junjie Zhou Zheng Liu Shitao Xiao Bo Zhao Yongping Xiong

摘要

多模态检索在实践中日益受到关注。然而，现有的检索模型大多以文本为中心，缺乏处理视觉信息的能力。尽管已有如CLIP等视觉-语言模型，但当前方法在表征纯文本或纯图像数据方面仍存在显著局限。本文提出一种全新的嵌入模型VISTA，用于实现通用的多模态检索。本工作在技术上做出三项主要贡献：第一，我们设计了一种灵活的架构，通过引入视觉标记嵌入（visual token embeddings），将强大的文本编码器扩展为具备图像理解能力；第二，我们提出了两种高质量数据生成策略，能够生成丰富的图文组合数据，有效支持嵌入模型的训练；第三，我们提出一种多阶段训练算法：首先利用大量弱标注数据，将视觉标记嵌入与文本编码器进行对齐；随后，基于生成的图文组合数据，进一步构建模型的多模态表征能力。实验结果表明，VISTA在多种多模态检索任务中，无论是在零样本（zero-shot）还是监督学习设置下，均取得了卓越的性能表现。我们的模型、训练数据及源代码已公开，详见：https://github.com/FlagOpen/FlagEmbedding。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

统一多模态

Junjie Zhou Zheng Liu Shitao Xiao Bo Zhao Yongping Xiong

摘要

多模态检索在实践中日益受到关注。然而，现有的检索模型大多以文本为中心，缺乏处理视觉信息的能力。尽管已有如CLIP等视觉-语言模型，但当前方法在表征纯文本或纯图像数据方面仍存在显著局限。本文提出一种全新的嵌入模型VISTA，用于实现通用的多模态检索。本工作在技术上做出三项主要贡献：第一，我们设计了一种灵活的架构，通过引入视觉标记嵌入（visual token embeddings），将强大的文本编码器扩展为具备图像理解能力；第二，我们提出了两种高质量数据生成策略，能够生成丰富的图文组合数据，有效支持嵌入模型的训练；第三，我们提出一种多阶段训练算法：首先利用大量弱标注数据，将视觉标记嵌入与文本编码器进行对齐；随后，基于生成的图文组合数据，进一步构建模型的多模态表征能力。实验结果表明，VISTA在多种多模态检索任务中，无论是在零样本（zero-shot）还是监督学习设置下，均取得了卓越的性能表现。我们的模型、训练数据及源代码已公开，详见：https://github.com/FlagOpen/FlagEmbedding。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供