4 个月前

解决自监督表示学习的低效问题

解决自监督表示学习的低效问题

摘要

自我监督学习(尤其是对比学习)因其在无监督方式下学习判别表示的巨大潜力而引起了广泛关注。尽管已取得公认的成功,现有的对比学习方法仍存在非常低的学习效率问题,例如,为了达到与有监督学习相当的识别精度,需要大约多出十倍的训练轮次。本文揭示了对比学习中的两个矛盾现象,我们称之为欠聚类和过聚类问题,这是提高学习效率的主要障碍。欠聚类指的是当用于对比学习的负样本对不足以区分所有实际对象类别时,模型无法高效地学会发现不同类别样本之间的差异性。过聚类则意味着由于负样本对过多,模型无法从这些样本中高效地学习特征,导致同一实际类别的样本被过度聚类到不同的簇中。为同时解决这两个问题,我们提出了一种基于截断三元组损失的新颖自我监督学习框架。具体而言,我们采用一种旨在最大化正样本对与负样本对之间相对距离的三元组损失来解决欠聚类问题;并通过从所有负样本中选择一个负样本代表来构建负样本对以避免过聚类问题,这一过程由伯努利分布模型保证。我们在多个大规模基准数据集(如ImageNet、SYSU-30k和COCO)上广泛评估了我们的框架。结果表明,我们的模型在最新的一流方法中具有显著的优势(例如,在学习效率方面)。代码可获取地址:https://github.com/wanggrun/triplet 。

代码仓库

wanggrun/triplet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
person-re-identification-on-sysu-30kTriplet (self-supervised)
Rank-1: 14.8
self-supervised-image-classification-onTriplet (ResNet-50)
Number of Params: 23.56M
Top 1 Accuracy: 75.9%
self-supervised-person-re-identification-onTriplet
Rank-1: 14.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
解决自监督表示学习的低效问题 | 论文 | HyperAI超神经