3 个月前

通过感知理解提升视觉表征学习

通过感知理解提升视觉表征学习

摘要

我们提出了一种对掩码自编码器(Masked Autoencoders, MAE)的扩展方法,通过显式鼓励模型学习更高层次的场景级特征,从而提升其表征能力。该方法主要通过以下两个方面实现:(i)引入生成图像与真实图像之间的感知相似性损失项;(ii)借鉴对抗训练领域的多种技术,包括多尺度训练策略以及自适应判别器增强机制。上述方法的结合不仅显著提升了像素级别的重建质量,还使得模型所学习到的特征能够更好地捕捉图像中的高层语义信息。更为重要的是,我们证明了所提出的Perceptual MAE方法在下游任务中表现出更优的性能,超越了以往的各类方法。在ImageNet-1K数据集上,采用线性探测(linear probing)方式达到78.1%的Top-1准确率,微调(fine-tuning)时最高可达88.1%;在其他下游任务中也取得了相近的优异结果。所有这些成果均在无需依赖额外预训练模型或数据的前提下实现。

代码仓库

基准测试

基准方法指标
self-supervised-image-classification-onPercMAE (ViT-B)
Number of Params: 80M
Top 1 Accuracy: 78.1%
self-supervised-image-classification-onPercMAE (ViT-B, dVAE)
Number of Params: 80M
Top 1 Accuracy: 79.8%
self-supervised-image-classification-on-1PercMAE (ViT-L, dVAE)
Number of Params: 307M
Top 1 Accuracy: 88.6%
self-supervised-image-classification-on-1PercMAE (ViT-L)
Number of Params: 307M
Top 1 Accuracy: 88.1%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过感知理解提升视觉表征学习 | 论文 | HyperAI超神经