
摘要
训练基于Transformer的模型需要大量的数据,而获取多模态对齐和标注的数据成本较高,尤其是对于音视频语音识别(AVSR)。因此,利用未标注的单模态数据具有重要意义。尽管大规模自监督学习在音频和视觉模态中的有效性已得到广泛认可,但如何将这些预训练模型整合到多模态场景中仍是一个有待探索的问题。在这项工作中,我们成功地利用了单模态自监督学习来提升多模态AVSR的效果。具体而言,音频和视觉前端在大规模单模态数据集上进行训练,然后我们将这两个前端的组件整合到一个更大的多模态框架中,该框架通过CTC和seq2seq解码相结合的方式学习识别并行的音视频数据为字符。我们展示了来自单模态自监督学习的两个组件能够很好地协同工作,从而使得多模态框架在微调后能够取得有竞争力的结果。我们的模型在单词级和句子级任务上均得到了实验验证。特别是,在没有外部语言模型的情况下,我们提出的模型在广泛接受的Lip Reading Sentences 2(LRS2)数据集上的性能大幅提高,相对提升了30%。
代码仓库
lumia-group/leveraging-self-supervised-learning-for-avsr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-visual-speech-recognition-on-lrs2 | MoCo + wav2vec (w/o extLM) | Test WER: 2.6 |
| automatic-speech-recognition-on-lrs2 | MoCo + wav2vec (w/o extLM) | Test WER: 2.7 |
| lipreading-on-lip-reading-in-the-wild | MoCo + Wav2Vec by SJTU LUMIA | Top-1 Accuracy: 85.0 |
| lipreading-on-lrs2 | MoCo + wav2vec (w/o extLM) | Word Error Rate (WER): 43.2 |