3 个月前

CBVS:面向真实世界短视频搜索场景的大规模中文图文基准数据集

CBVS:面向真实世界短视频搜索场景的大规模中文图文基准数据集

摘要

基于大规模图像-文本数据集预训练的视觉语言模型在图像检索等下游任务中展现出优异性能。然而,大多数用于预训练的图像以开放域常识性视觉元素的形式呈现。相比之下,在短视频搜索场景中,视频封面通常为用户生成内容,能够有效概括视频的核心视觉信息。此外,部分视频封面还配有由人工设计的封面文本,为视觉内容提供语义补充。为弥补短视频封面数据的不足,我们首次构建了面向中文短视频搜索场景的大规模封面-文本基准数据集。具体而言,我们发布了两个大规模数据集CBVS-5M和CBVS-10M,用于提供短视频封面;同时发布了人工精细化标注的CBVS-20K数据集,包含真实用户查询,构成了中文短视频搜索领域首个图像-文本基准测试集。为在模态缺失情况下有效融合封面文本的语义信息,我们提出UniCLIP模型。该模型在训练阶段利用封面文本作为语义引导,但在推理阶段不依赖其输入,从而实现对多模态信息的鲁棒融合。在CBVS-20K数据集上的大量实验验证了所提方法的优越性能。目前,UniCLIP已成功部署于腾讯在线视频搜索系统,日均访问量达数亿次,并取得了显著的性能提升。相关数据集与代码已开源,地址为:https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP。

代码仓库

QQBrowserVideoSearch/CBVS-UniCLIP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-cbvsUniCLIP
Recall@1: 0.503
image-retrieval-on-cbvsUniCLP
PNR: 3.069

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CBVS:面向真实世界短视频搜索场景的大规模中文图文基准数据集 | 论文 | HyperAI超神经