3 个月前

判别式多模态语音识别

判别式多模态语音识别

摘要

视觉常被用作语音识别(ASR)的补充模态,尤其是在噪声环境下,单一音频模态的性能显著下降时。通过融合视觉信息,语音识别系统升级为多模态语音识别(MSR)。本文提出了一种两阶段语音识别模型。在第一阶段,利用唇部运动的对应视觉信息,从背景噪声中分离出目标语音,使模型能够“清晰地聆听”。在第二阶段,音频模态再次与视觉模态融合,通过一个MSR子网络更准确地理解语音内容,进一步提升识别准确率。本文的主要贡献包括:提出一种基于伪三维残差卷积(P3D)的视觉前端,以提取更具判别性的视觉特征;将原有的1D ResNet结构中的时序卷积模块升级为时序卷积网络(TCN),更适用于时序建模任务;在MSR子网络中采用逐元素注意力门控循环单元(EleAtt-GRU),其在处理长序列时相比Transformer表现更优。我们在LRS3-TED和LRW两个数据集上进行了大量实验。结果表明,所提出的两阶段模型(增强音频的多模态语音识别,AE-MSR)在各项指标上均显著优于现有方法,持续达到当前最优性能,充分验证了AE-MSR方法的有效性与必要性。

代码仓库

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrs3-tedEG-seq2seq
Word Error Rate (WER): 6.8
lipreading-on-lip-reading-in-the-wild3D Conv + P3D-ResNet50 + TCN
Top-1 Accuracy: 84.80
lipreading-on-lrs3-tedEG-seq2seq
Word Error Rate (WER): 57.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
判别式多模态语音识别 | 论文 | HyperAI超神经