4 个月前

大规模视觉语音识别

大规模视觉语音识别

摘要

这项研究提出了一种可扩展的开放词汇视觉语音识别解决方案。为了实现这一目标,我们构建了目前最大的视觉语音识别数据集,包含文本和说话人脸的视频片段配对(总计3,886小时的视频)。同时,我们设计并训练了一个集成的唇读系统,该系统由一个将原始视频映射为稳定的唇部视频和音素序列的视频处理流水线、一个可扩展的深度神经网络(该网络将唇部视频映射为音素分布序列)以及一个生产级别的语音解码器(输出单词序列)组成。所提出的系统在保留测试集上的词错误率(WER)达到了40.9%。相比之下,专业唇读者在同一数据集上即使拥有额外类型的上下文信息,其词错误率仍高达86.4%或92.9%。我们的方法显著优于其他唇读方法,包括LipNet及其变体和Watch, Attend, and Spell (WAS)方法,后者的词错误率分别为89.8%和76.8%。

基准测试

基准方法指标
lipreading-on-lrs3-tedCTC-V2P
Word Error Rate (WER): 55.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模视觉语音识别 | 论文 | HyperAI超神经