
摘要
我们提出了 Wav2Seq,这是首个针对语音数据的编码器-解码器模型中两个部分进行自监督预训练的方法。我们引入了一种伪语言,作为紧凑的离散表示,并构建了一个自监督的伪语音识别任务——将音频输入转换为伪子词序列。该方法可独立使用,也可作为低成本的第二阶段预训练策略。我们在自动语音识别(ASR)、语音命名实体识别以及语音到文本翻译任务上进行了实验。在端到端语音命名实体识别任务上,我们取得了新的最先进性能;在20个语言对的语音到文本翻译任务中,也展现出持续的性能提升,即便在对比方法使用额外文本数据进行训练的情况下依然如此。此外,在自动语音识别任务中,我们的方法使编码器-解码器模型能够对网络的所有部分均实现预训练,其性能可与近期高度优化的方法相媲美。
代码仓库
asappresearch/wav2seq
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-on-slue | Wav2Seq (from HuBERT-large) | F1 (%): 65.4 |