6 个月前

摘要

基于大规模图像-文本数据集预训练的视觉语言模型在图像检索等下游任务中展现出优异性能。然而，大多数用于预训练的图像以开放域常识性视觉元素的形式呈现。相比之下，在短视频搜索场景中，视频封面通常为用户生成内容，能够有效概括视频的核心视觉信息。此外，部分视频封面还配有由人工设计的封面文本，为视觉内容提供语义补充。为弥补短视频封面数据的不足，我们首次构建了面向中文短视频搜索场景的大规模封面-文本基准数据集。具体而言，我们发布了两个大规模数据集CBVS-5M和CBVS-10M，用于提供短视频封面；同时发布了人工精细化标注的CBVS-20K数据集，包含真实用户查询，构成了中文短视频搜索领域首个图像-文本基准测试集。为在模态缺失情况下有效融合封面文本的语义信息，我们提出UniCLIP模型。该模型在训练阶段利用封面文本作为语义引导，但在推理阶段不依赖其输入，从而实现对多模态信息的鲁棒融合。在CBVS-20K数据集上的大量实验验证了所提方法的优越性能。目前，UniCLIP已成功部署于腾讯在线视频搜索系统，日均访问量达数亿次，并取得了显著的性能提升。相关数据集与代码已开源，地址为：https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP。

源 PDF