HyperAIHyperAI

Command Palette

Search for a command to run...

上下文自编码器用于自监督表示学习

Xiaokang Chen Mingyu Ding Xiaodi Wang Ying Xin Shentong Mo Yunhao Wang Shumin Han Ping Luo Gang Zeng Jingdong Wang

摘要

我们提出了一种新型的掩码图像建模(Masked Image Modeling, MIM)方法——上下文自编码器(Context Autoencoder, CAE),用于自监督表示预训练。该方法通过在编码表示空间中进行预测来预训练编码器。预训练任务包含两项:掩码表示预测(预测被掩码图像块的表示)和掩码图像块重建(重建被掩码的图像块)。CAE网络采用编码器-回归器-解码器架构:编码器以可见图像块作为输入;回归器基于可见图像块的表示以及可见与被掩码图像块的位置信息,预测被掩码图像块的表示,其目标是使预测的表示与编码器实际计算出的表示对齐;解码器则根据预测的编码表示重建被掩码的图像块。CAE的设计促使编码器(表示学习)与具体任务(掩码表示预测和掩码图像块重建)的解耦学习。实验证明,在编码表示空间中进行预测有助于提升表示学习的效果。我们在多个下游任务中验证了CAE的有效性,包括语义分割、目标检测、实例分割和图像分类,均取得了优于现有方法的迁移性能。代码将开源,地址为:https://github.com/Atten4Vis/CAE


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供