4 个月前

图像和视频软对比自监督学习的相似性对比估计

图像和视频软对比自监督学习的相似性对比估计

摘要

对比表示学习已被证明是一种有效的图像和视频自监督学习方法。大多数成功的方案都是基于噪声对比估计(Noise Contrastive Estimation, NCE),并使用同一实例的不同视图作为正样本,与其他被视为噪声的实例(称为负样本)进行对比。然而,数据集中的一些实例来自相同的分布,并且共享底层的语义信息。一个好的数据表示应该包含实例之间的关系,即语义相似性和差异性,而对比学习通过将所有负样本视为噪声来损害这些关系。为了解决这一问题,我们提出了一种新的对比学习公式,该公式利用实例之间的语义相似性,称为相似性对比估计(Similarity Contrastive Estimation, SCE)。我们的训练目标是一个软对比目标,旨在使正样本更加接近,并根据其学到的相似性估计一个连续分布以推远或拉近负样本。我们在图像和视频表示学习上对我们的方法进行了实证验证。结果显示,SCE在较少的预训练轮次下,在ImageNet线性评估协议上的表现与现有最先进方法相当,并且可以推广到多个下游图像任务。此外,我们还展示了SCE在预训练视频表示方面达到了最先进的结果,并且所学的表示可以推广到视频下游任务。

代码仓库

cea-list/sce
pytorch
GitHub 中提及

基准测试

基准方法指标
self-supervised-action-recognition-on-hmdb51SCE (R3D-50)
Frozen: false
Pre-Training Dataset: Kinetics400
Top-1 Accuracy: 74.7
self-supervised-action-recognition-on-ucf101SCE (R3D-50)
3-fold Accuracy: 95.3
Frozen: false
Pre-Training Dataset: Kinetics400

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
图像和视频软对比自监督学习的相似性对比估计 | 论文 | HyperAI超神经