4 个月前

Auto-AVSR:自动标注的音视频语音识别

Auto-AVSR:自动标注的音视频语音识别

摘要

视听语音识别因其对声学噪声的鲁棒性而受到广泛关注。近年来,自动语音识别(ASR)、视觉语音识别(VSR)和视听语音识别(AV-ASR)的性能得到了显著提升,这主要归功于更大规模的模型和训练集的应用。然而,数据集的精确标注耗时且成本高昂。因此,本研究探讨了利用未标注数据集自动生成转录以增加训练集规模的方法。为此,我们使用公开可用的预训练ASR模型来自动转录音频视觉数据集(如AVSpeech和VoxCeleb2)。随后,我们在扩展后的训练集上训练ASR、VSR和AV-ASR模型,该训练集包括LRS2和LRS3数据集以及额外的自动生成转录数据。研究表明,尽管使用了带有噪声的转录,但扩大训练集规模这一近期趋势仍能降低词错误率(WER)。所提出的模型在LRS2和LRS3上的AV-ASR任务中达到了新的最先进水平。特别是,在LRS3上实现了0.9%的WER,相对于当前最先进方法相对提升了30%,并且超过了使用26倍更多训练数据但非公开可用的数据集进行训练的方法。

代码仓库

mpc001/auto_avsr
官方
pytorch
GitHub 中提及
umbertocappellazzo/llama-avsr
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrs2CTC/Attention
Test WER: 1.5
audio-visual-speech-recognition-on-lrs3-tedCTC/Attention
Word Error Rate (WER): 0.9
automatic-speech-recognition-asr-on-lrs3-tedCTC/Attention
Word Error Rate (WER): 1
automatic-speech-recognition-on-lrs2CTC/Attention
Test WER: 1.5
lipreading-on-lrs2Auto-AVSR
Word Error Rate (WER): 14.6
lipreading-on-lrs3-tedAuto-AVSR
Word Error Rate (WER): 19.1
visual-speech-recognition-on-lrs3-tedCTC/Attention
Word Error Rate (WER): 19.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供