3 个月前

用于音视频语音识别的循环神经网络转换器

用于音视频语音识别的循环神经网络转换器

摘要

本研究提出了一种基于循环神经网络转换器(RNN-T)架构的大规模音视频语音识别系统。为支持该系统的开发,我们构建了一个大规模的音视频(A/V)数据集,其中包含从公开YouTube视频中提取的分段语音内容,总计达31,000小时的音视频训练数据。我们在两个大词汇量测试集上对仅音频、仅视觉以及音视频融合三种系统进行了性能对比评估:一个是来自公开YouTube视频的语音片段集合YTDEV18,另一个是公开可用的LRS3-TED数据集。为进一步凸显视觉模态的贡献,我们还在YTDEV18数据集上引入了背景噪声和语音重叠等人工干扰,评估系统在恶劣条件下的表现。据我们所知,该系统在LRS3-TED数据集上的表现显著优于当前最先进的水平。

代码仓库

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrs3-tedRNN-T
Word Error Rate (WER): 4.5
lipreading-on-lrs3-tedRNN-T
Word Error Rate (WER): 33.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于音视频语音识别的循环神经网络转换器 | 论文 | HyperAI超神经