4 个月前

基于子词级别的唇读与视觉注意力

基于子词级别的唇读与视觉注意力

摘要

本文的目标是学习强大的唇读模型,以识别无声视频中的语音。大多数先前的研究通过在简单的视觉特征池化基础上应用现有的自动语音识别技术来解决开放集视觉语音识别问题。相比之下,本文重点关注唇读中遇到的独特挑战,并提出量身定制的解决方案。为此,我们做出了以下贡献:(1)提出了一种基于注意力机制的池化方法,用于聚合视觉语音表示;(2)首次在唇读中使用子词单元,并展示了这种方法能够更好地建模任务的模糊性;(3)提出了一种视觉语音检测(VSD)模型,该模型在唇读网络的基础上进行训练。通过上述方法,在公共数据集上训练时,我们在具有挑战性的LRS2和LRS3基准测试中取得了最先进的结果,甚至在使用比大规模工业数据集少一个数量级的数据的情况下超越了这些数据集上的模型。我们的最佳模型在LRS2数据集上实现了22.6%的词错误率,这是唇读模型前所未有的性能表现,显著缩小了唇读与自动语音识别之间的性能差距。此外,在AVA-ActiveSpeaker基准测试中,我们的VSD模型超越了所有仅基于视觉的方法,并且优于几种最近的音视频联合方法。

基准测试

基准方法指标
audio-visual-active-speaker-detection-on-avaVTP (visual only)
validation mean average precision: 89.2%
lipreading-on-lrs2VTP (more data)
Word Error Rate (WER): 22.6
lipreading-on-lrs2VTP
Word Error Rate (WER): 28.9
lipreading-on-lrs3-tedVTP (more data)
Word Error Rate (WER): 30.7
lipreading-on-lrs3-tedVTP
Word Error Rate (WER): 40.6
visual-speech-recognition-on-lrs2VTP with more data
Word Error Rate (WER): 22.6
visual-speech-recognition-on-lrs2VTP
Word Error Rate (WER): 28.9
visual-speech-recognition-on-lrs3-tedVTP
Word Error Rate (WER): 40.6
visual-speech-recognition-on-lrs3-tedVTP with more data
Word Error Rate (WER): 30.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于子词级别的唇读与视觉注意力 | 论文 | HyperAI超神经