3 个月前

基于LRS2数据集的音视频重叠语音识别

基于LRS2数据集的音视频重叠语音识别

摘要

迄今为止,重叠语音的自动识别仍然是一个极具挑战性的任务。受人类语音感知双模态特性的启发,本文研究了基于音视频技术的重叠语音识别方法。针对音视频语音识别(AVSR)系统构建中的三个关键问题,本文提出了一系列解决方案:首先,探讨了AVSR系统的基础架构设计,包括端到端与混合式架构;其次,引入了专门设计的模态融合门机制,以鲁棒地融合音频与视觉特征;第三,与传统流水线式架构(包含显式的语音分离与识别模块)不同,本文提出了一种结构精简且高度集成的AVSR系统,该系统通过无网格最大似然增量(Lattice-free MMI, LF-MMI)判别准则进行统一优化。所提出的基于LF-MMI的时延神经网络(TDNN)系统在LRS2数据集上达到了当前最优性能。在基于LRS2数据集模拟的重叠语音实验中,该AVSR系统相较仅使用音频的基线LF-MMI深度神经网络(DNN)系统,词错误率(WER)最高降低了29.98个百分点,识别性能与更复杂的流水线系统相当。此外,在特征融合基础上,该系统相较基线AVSR系统实现了4.89个百分点的WER绝对降低,表现出持续且显著的性能提升。

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrs2LF-MMI TDNN
Test WER: 5.9
automatic-speech-recognition-on-lrs2LF-MMI TDNN
Test WER: 6.7
lipreading-on-lrs2LF-MMI TDNN
Word Error Rate (WER): 48.86

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于LRS2数据集的音视频重叠语音识别 | 论文 | HyperAI超神经