MaPingchuan ; HaliassosAlexandros ; Fernandez-LopezAdriana ; ChenHonglie ; PetridisStavros ; PanticMaja

摘要
视听语音识别因其对声学噪声的鲁棒性而受到广泛关注。近年来,自动语音识别(ASR)、视觉语音识别(VSR)和视听语音识别(AV-ASR)的性能得到了显著提升,这主要归功于更大规模的模型和训练集的应用。然而,数据集的精确标注耗时且成本高昂。因此,本研究探讨了利用未标注数据集自动生成转录以增加训练集规模的方法。为此,我们使用公开可用的预训练ASR模型来自动转录音频视觉数据集(如AVSpeech和VoxCeleb2)。随后,我们在扩展后的训练集上训练ASR、VSR和AV-ASR模型,该训练集包括LRS2和LRS3数据集以及额外的自动生成转录数据。研究表明,尽管使用了带有噪声的转录,但扩大训练集规模这一近期趋势仍能降低词错误率(WER)。所提出的模型在LRS2和LRS3上的AV-ASR任务中达到了新的最先进水平。特别是,在LRS3上实现了0.9%的WER,相对于当前最先进方法相对提升了30%,并且超过了使用26倍更多训练数据但非公开可用的数据集进行训练的方法。
代码仓库
mpc001/auto_avsr
官方
pytorch
GitHub 中提及
umbertocappellazzo/llama-avsr
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-visual-speech-recognition-on-lrs2 | CTC/Attention | Test WER: 1.5 |
| audio-visual-speech-recognition-on-lrs3-ted | CTC/Attention | Word Error Rate (WER): 0.9 |
| automatic-speech-recognition-asr-on-lrs3-ted | CTC/Attention | Word Error Rate (WER): 1 |
| automatic-speech-recognition-on-lrs2 | CTC/Attention | Test WER: 1.5 |
| lipreading-on-lrs2 | Auto-AVSR | Word Error Rate (WER): 14.6 |
| lipreading-on-lrs3-ted | Auto-AVSR | Word Error Rate (WER): 19.1 |
| visual-speech-recognition-on-lrs3-ted | CTC/Attention | Word Error Rate (WER): 19.1 |