3 个月前

VISTA:面向通用多模态检索的可视化文本嵌入

VISTA:面向通用多模态检索的可视化文本嵌入

摘要

多模态检索在实践中日益受到关注。然而,现有的检索模型大多以文本为中心,缺乏处理视觉信息的能力。尽管已有如CLIP等视觉-语言模型,但当前方法在表征纯文本或纯图像数据方面仍存在显著局限。本文提出一种全新的嵌入模型VISTA,用于实现通用的多模态检索。本工作在技术上做出三项主要贡献:第一,我们设计了一种灵活的架构,通过引入视觉标记嵌入(visual token embeddings),将强大的文本编码器扩展为具备图像理解能力;第二,我们提出了两种高质量数据生成策略,能够生成丰富的图文组合数据,有效支持嵌入模型的训练;第三,我们提出一种多阶段训练算法:首先利用大量弱标注数据,将视觉标记嵌入与文本编码器进行对齐;随后,基于生成的图文组合数据,进一步构建模型的多模态表征能力。实验结果表明,VISTA在多种多模态检索任务中,无论是在零样本(zero-shot)还是监督学习设置下,均取得了卓越的性能表现。我们的模型、训练数据及源代码已公开,详见:https://github.com/FlagOpen/FlagEmbedding。

代码仓库

基准测试

基准方法指标
image-retrieval-on-cirrVISTA (base)
(Recall@5+Recall_subset@1)/2: 75.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VISTA:面向通用多模态检索的可视化文本嵌入 | 论文 | HyperAI超神经