Jianwei YuShi-Xiong ZhangJian WuShahram GhorbaniBo WuShiyin KangShansong LiuXunying LiuHelen MengDong Yu

摘要
迄今为止,重叠语音的自动识别仍然是一个极具挑战性的任务。受人类语音感知双模态特性的启发,本文研究了基于音视频技术的重叠语音识别方法。针对音视频语音识别(AVSR)系统构建中的三个关键问题,本文提出了一系列解决方案:首先,探讨了AVSR系统的基础架构设计,包括端到端与混合式架构;其次,引入了专门设计的模态融合门机制,以鲁棒地融合音频与视觉特征;第三,与传统流水线式架构(包含显式的语音分离与识别模块)不同,本文提出了一种结构精简且高度集成的AVSR系统,该系统通过无网格最大似然增量(Lattice-free MMI, LF-MMI)判别准则进行统一优化。所提出的基于LF-MMI的时延神经网络(TDNN)系统在LRS2数据集上达到了当前最优性能。在基于LRS2数据集模拟的重叠语音实验中,该AVSR系统相较仅使用音频的基线LF-MMI深度神经网络(DNN)系统,词错误率(WER)最高降低了29.98个百分点,识别性能与更复杂的流水线系统相当。此外,在特征融合基础上,该系统相较基线AVSR系统实现了4.89个百分点的WER绝对降低,表现出持续且显著的性能提升。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-visual-speech-recognition-on-lrs2 | LF-MMI TDNN | Test WER: 5.9 |
| automatic-speech-recognition-on-lrs2 | LF-MMI TDNN | Test WER: 6.7 |
| lipreading-on-lrs2 | LF-MMI TDNN | Word Error Rate (WER): 48.86 |