4 个月前

ATST:基于教师-学生变换器的音频表征学习

ATST:基于教师-学生变换器的音频表征学习

摘要

自监督学习(Self-supervised Learning, SSL)从大量未标记数据中学习知识,然后将这些知识迁移到具有有限标记数据的具体问题上。SSL已在多个领域取得了令人鼓舞的成果。本研究针对分段级别的通用音频自监督学习问题,提出了一种基于变压器的新教师-学生自监督学习模型,命名为ATST。在最近出现的一种教师-学生基线方案基础上开发了变压器编码器,这大大提高了预训练的建模能力。此外,设计了一种新的正样本对生成策略,以充分利用变压器的能力。进行了广泛的实验,结果表明所提出的模型在几乎所有下游任务上均达到了最新的最佳水平(state-of-the-art)。

基准测试

基准方法指标
audio-classification-on-balanced-audio-setBase (ours)
Mean AP: 37.4
speaker-identification-on-voxceleb1ATST Base (ours)
Accuracy: 94.3
Top-1 (%): 94.3
spoken-command-recognition-on-speech-commandBase (ours)
Accuracy: 98.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ATST:基于教师-学生变换器的音频表征学习 | 论文 | HyperAI超神经