
摘要
近年来,深度学习的快速发展极大地激发了研究者在视觉语音识别(Visual Speech Recognition, VSR)领域的兴趣。目前,大多数现有方法将VSR等同于自动唇读技术,即通过分析唇部运动来识别语音内容。然而,人类经验与心理学研究表明,在面对面交流过程中,人们并不会始终将视线聚焦于对方的嘴唇,而是会反复扫描整个面部区域。这一现象启发我们重新审视一个基础但常被忽视的问题:视觉语音识别模型是否能够从唇部以外的面部区域(即“口外面部区域”)中获益?本文开展了一项全面的研究,评估了不同面部区域在当前最先进的VSR模型中的作用,涵盖唇部、整个面部、上半面部乃至脸颊等区域。实验在具有不同特性的词级与句级基准数据集上进行。研究发现,尽管数据存在复杂的变异,但引入口外面部区域的信息——甚至包括上半面部——始终能够稳定提升VSR的性能表现。此外,我们提出一种简单而有效的方法,基于Cutout策略,以增强模型对不同面部区域中判别性特征的学习能力,旨在最大限度地挖掘各面部区域所蕴含的信息价值。实验结果表明,相较于仅以唇部区域作为输入的现有最先进方法,本方法在多个任务上均取得了显著的性能提升。我们相信,这一成果将为视觉语音识别领域带来新的、富有启发性的研究视角。
代码仓库
sailordiary/deep-face-vsr
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| lipreading-on-grid-corpus-mixed-speech | LipNet (with Face Cutout) | Word Error Rate (WER): 2.9 |
| lipreading-on-lip-reading-in-the-wild | 3D Conv + ResNet-18 + Bi-GRU(Face Cutout) | Top-1 Accuracy: 85.02 |
| lipreading-on-lrw-1000 | 3D Conv + ResNet-18 + Bi-GRU (Face Cutout) | Top-1 Accuracy: 45.24% |