3 个月前

掩码建模双元:通过鼓励两个网络共同建模输入来学习表示

掩码建模双元:通过鼓励两个网络共同建模输入来学习表示

摘要

掩码自编码器(Masked Autoencoders)是一种简单而强大的自监督学习方法。然而,它通过重建被掩码的输入图像块来间接学习表征。尽管已有若干方法通过直接预测被掩码块的表征来学习表征,但我们认为,仅利用被掩码块来获取训练信号,比使用所有图像块来编码训练信号更为高效。为此,我们提出了一种新方法——掩码建模双网络(Masked Modeling Duo, M2D),该方法在直接学习表征的同时,仅通过被掩码块获取训练信号。在M2D框架中,在线网络(online network)负责编码可见块并预测被掩码块的表征,而目标网络(target network)——即动量编码器(momentum encoder)——则负责编码被掩码块。为了更准确地预测目标网络的表征,在线网络需对输入进行良好建模,同时目标网络也应具备良好的建模能力,以与在线网络的预测保持一致。由此,所学习到的表征将更有效地捕捉输入数据的本质结构。我们在通用音频表征学习任务上验证了M2D的有效性,结果表明,M2D在UrbanSound8K、VoxCeleb1、AudioSet20K、GTZAN和SpeechCommandsV2等多个基准任务上均取得了新的最先进(state-of-the-art)性能。此外,我们在附录中进一步通过ImageNet-1K数据集验证了M2D在图像任务上的有效性。

代码仓库

nttcslab/m2d
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
keyword-spotting-on-google-speech-commandsM2D
Google Speech Commands V2 35: 98.5
speaker-identification-on-voxceleb1M2D ratio=0.6
Accuracy: 94.8
Top-1 (%): 94.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
掩码建模双元:通过鼓励两个网络共同建模输入来学习表示 | 论文 | HyperAI超神经