
摘要
人类观察者可以从少数几个样本中学习识别新的图像类别,而使用人工系统实现这一点仍然是一个未解决的挑战。我们假设,数据高效的识别能力是由那些使得自然信号变化更加可预测的表示所支持的。因此,我们重新审视并改进了对比预测编码(Contrastive Predictive Coding),这是一种用于学习此类表示的无监督目标函数。这一新实现生成的特征在ImageNet数据集上支持最先进的线性分类准确性。当用作深度神经网络非线性分类的输入时,这种表示使我们能够比直接基于图像像素训练的分类器减少2-5倍的标签使用量。最后,这种无监督表示显著提高了在PASCAL VOC数据集上的目标检测迁移学习性能,超过了完全监督预训练的ImageNet分类器。
代码仓库
SeonghoBaek/FrameSequencePrediction
tf
GitHub 中提及
SeonghoBaek/CPC
tf
GitHub 中提及
philip-bachman/amdim-public
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| contrastive-learning-on-imagenet-1k | ResNet v2 101 | ImageNet Top-1 Accuracy: 48.7 |
| contrastive-learning-on-imagenet-1k | ResNet50 (v2) | ImageNet Top-1 Accuracy: 63.8 |
| self-supervised-image-classification-on | CPC v2 (ResNet-50) (arxiv v2) | Number of Params: 24M Top 1 Accuracy: 63.8% Top 5 Accuracy: 85.3% |
| self-supervised-image-classification-on | CPC v2 (ResNet-161) (arxiv v2) | Number of Params: 305M Top 1 Accuracy: 71.5% Top 5 Accuracy: 90.1% |
| self-supervised-image-classification-on | CPC v2 (ResNet-161) (arxiv v1) | Number of Params: 305M Top 1 Accuracy: 61.0% Top 5 Accuracy: 83.0% |
| semi-supervised-image-classification-on-2 | CPC v2 (ResNet-161) | Top 1 Accuracy: 73.1% Top 5 Accuracy: 91.2% |