4 个月前

多模态聚类网络用于无标签视频的自监督学习

多模态聚类网络用于无标签视频的自监督学习

摘要

多模态自监督学习正日益受到关注,因为它不仅允许在无需人工监督的情况下训练大型网络,还能够在不同模态之间进行数据搜索和检索。在此背景下,本文提出了一种自监督训练框架,该框架学习一个共同的多模态嵌入空间,除了在不同模态之间共享表示外,还强制对语义相似的实例进行分组。为此,我们在训练流程中扩展了实例级对比学习的概念,加入了一个多模态聚类步骤,以捕捉跨模态的语义相似性。所得到的嵌入空间能够实现跨所有模态的样本检索,即使是从未见过的数据集和不同领域中也是如此。为了评估我们的方法,我们在HowTo100M数据集上训练了模型,并在两个具有挑战性的领域中测试了其零样本检索能力,即文本到视频检索和时间动作定位,在四个不同的数据集中展示了最先进的结果。

代码仓库

brian7685/Multimodal-Clustering-Network
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-video-retrieval-background-removed-onMCN
Cap. Avg. R@1: 53.4
Cap. Avg. R@10: 81.4
Cap. Avg. R@5: 75.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态聚类网络用于无标签视频的自监督学习 | 论文 | HyperAI超神经