3 个月前

从像素生成预训练

从像素生成预训练

摘要

受自然语言处理中无监督表示学习进展的启发,我们探讨了类似模型是否能够为图像学习到有效的表示。我们训练了一个序列Transformer模型,使其以自回归方式预测像素值,且未引入任何关于二维输入结构的先验知识。尽管仅在无标签的低分辨率ImageNet数据集上进行训练,我们发现,一个规模相当于GPT-2的模型,在线性探测(linear probing)、微调(fine-tuning)以及低数据量分类任务中均能学习到强大的图像表示。在CIFAR-10数据集上,采用线性探测方法达到了96.3%的准确率,超越了监督学习的Wide ResNet模型;而在完整微调后,准确率提升至99.0%,与当前最优的监督预训练模型表现相当。此外,一个规模更大的模型在ImageNet与网络图像混合数据集上进行训练,其线性探测性能在ImageNet上已达到72.0%的top-1准确率,表现出与自监督学习基准方法相竞争的水平。

基准测试

基准方法指标
image-classification-on-stl-10iGPT-L
Percentage correct: 97.1
image-classification-on-stl-10AMDIM-L
Percentage correct: 94.2
self-supervised-image-classification-oniGPT-XL (64x64, 3072 features)
Number of Params: 6800M
Top 1 Accuracy: 68.7%
self-supervised-image-classification-oniGPT-L (48x48)
Number of Params: 1400M
Top 1 Accuracy: 65.2%
self-supervised-image-classification-oniGPT-XL (64x64, 15360 features)
Number of Params: 6801M
Top 1 Accuracy: 72.0%
self-supervised-image-classification-oniGPT-L (32x32)
Number of Params: 1400M
Top 1 Accuracy: 60.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从像素生成预训练 | 论文 | HyperAI超神经