4 个月前

利用单模态自监督学习进行多模态音视频语音识别

利用单模态自监督学习进行多模态音视频语音识别

摘要

训练基于Transformer的模型需要大量的数据,而获取多模态对齐和标注的数据成本较高,尤其是对于音视频语音识别(AVSR)。因此,利用未标注的单模态数据具有重要意义。尽管大规模自监督学习在音频和视觉模态中的有效性已得到广泛认可,但如何将这些预训练模型整合到多模态场景中仍是一个有待探索的问题。在这项工作中,我们成功地利用了单模态自监督学习来提升多模态AVSR的效果。具体而言,音频和视觉前端在大规模单模态数据集上进行训练,然后我们将这两个前端的组件整合到一个更大的多模态框架中,该框架通过CTC和seq2seq解码相结合的方式学习识别并行的音视频数据为字符。我们展示了来自单模态自监督学习的两个组件能够很好地协同工作,从而使得多模态框架在微调后能够取得有竞争力的结果。我们的模型在单词级和句子级任务上均得到了实验验证。特别是,在没有外部语言模型的情况下,我们提出的模型在广泛接受的Lip Reading Sentences 2(LRS2)数据集上的性能大幅提高,相对提升了30%。

代码仓库

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrs2MoCo + wav2vec (w/o extLM)
Test WER: 2.6
automatic-speech-recognition-on-lrs2MoCo + wav2vec (w/o extLM)
Test WER: 2.7
lipreading-on-lip-reading-in-the-wildMoCo + Wav2Vec by SJTU LUMIA
Top-1 Accuracy: 85.0
lipreading-on-lrs2MoCo + wav2vec (w/o extLM)
Word Error Rate (WER): 43.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用单模态自监督学习进行多模态音视频语音识别 | 论文 | HyperAI超神经