6 个月前

摘要

自监督学习（Self-supervised Learning, SSL）在大型计算机视觉基准测试中正迅速缩小与有监督方法之间的差距。一种成功的SSL方法是学习对输入样本畸变具有不变性的嵌入表示。然而，该方法的一个常见问题是存在平凡的常数解（trivial constant solutions）。目前大多数方法通过精心设计的实现细节来规避此类问题。我们提出了一种新的目标函数，通过测量两个相同网络在接收同一样本的不同畸变版本时的输出之间的交叉相关矩阵，并使其尽可能接近单位矩阵，从而自然地避免了特征坍缩（collapse）问题。该机制促使同一样本不同畸变版本的嵌入向量趋于相似，同时最小化向量各分量之间的冗余性。该方法被称为“Barlow Twins”，灵感来源于神经科学家H. Barlow提出的冗余消除原理（redundancy-reduction principle），将其应用于一对相同的网络结构。Barlow Twins无需使用大规模批次（large batches），也无需在双网络之间引入不对称性设计，例如预测网络、梯度停止（gradient stopping）或权重更新的动量平均（moving average）。令人意外的是，该方法在高维输出向量下表现尤为出色。在低数据量场景下，Barlow Twins在ImageNet的半监督分类任务中优于以往方法；在使用线性分类头进行ImageNet分类时，其性能与当前最先进水平相当；在分类与目标检测等迁移学习任务中，同样达到了顶尖水平。

源 PDF