
摘要
自监督学习(Self-supervised Learning, SSL)从大量未标记数据中学习知识,然后将这些知识迁移到具有有限标记数据的具体问题上。SSL已在多个领域取得了令人鼓舞的成果。本研究针对分段级别的通用音频自监督学习问题,提出了一种基于变压器的新教师-学生自监督学习模型,命名为ATST。在最近出现的一种教师-学生基线方案基础上开发了变压器编码器,这大大提高了预训练的建模能力。此外,设计了一种新的正样本对生成策略,以充分利用变压器的能力。进行了广泛的实验,结果表明所提出的模型在几乎所有下游任务上均达到了最新的最佳水平(state-of-the-art)。
代码仓库
2024-MindSpore-1/Code6/tree/main/ats
mindspore
Audio-WestlakeU/ATST-SED
pytorch
GitHub 中提及
2023-MindSpore-4/Code8/tree/main/ats
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-balanced-audio-set | Base (ours) | Mean AP: 37.4 |
| speaker-identification-on-voxceleb1 | ATST Base (ours) | Accuracy: 94.3 Top-1 (%): 94.3 |
| spoken-command-recognition-on-speech-command | Base (ours) | Accuracy: 98.0 |