
摘要
人类在听不到说话声或外部噪音干扰时,往往会不由自主地从说话者的唇部动作中推断出部分对话内容。在这项研究中,我们探讨了唇动到语音合成的任务,即仅通过说话者的唇部动作来生成自然的语音。鉴于上下文和特定说话者线索对准确唇读的重要性,我们的研究路径与现有工作有所不同。我们专注于在不受限制、大词汇量的环境中学习个体说话者的唇动序列与语音之间的精确映射关系。为此,我们收集并发布了一个大规模基准数据集,这是首个专门用于在自然环境中训练和评估单个说话者唇动到语音任务的数据集。我们提出了一种新颖的方法,并做出了关键的设计选择,首次在这样的不受限场景中实现了准确且自然的唇动到语音合成。广泛的定量、定性和人工评估表明,我们的方法比该领域的先前工作具有四倍更高的可理解性。请观看我们的演示视频以快速了解论文、方法和定性结果。https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be
代码仓库
Rudrabha/Lip2Wav
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| lip-to-speech-synthesis-on-lrw | Lip2Wav | ESTOI: 0.344 PESQ: 1.197 STOI: 0.543 |
| speaker-specific-lip-to-speech-synthesis-on | Lip2Wav | ESTOI: 0.535 PESQ: 1.772 STOI: 0.731 |
| speaker-specific-lip-to-speech-synthesis-on-1 | Lip2Wav | ESTOI: 36.5 PESQ: 1.35 STOI: 0.558 |
| speaker-specific-lip-to-speech-synthesis-on-3 | Lip2Wav | ESTOI: 0.22 PESQ: 1.367 STOI: 0.369 |
| speaker-specific-lip-to-speech-synthesis-on-4 | Lip2Wav | ESTOI: 0.311 PESQ: 1.29 STOI: 0.446 |
| speaker-specific-lip-to-speech-synthesis-on-5 | Lip2Wav | ESTOI: 0.183 PESQ: 1.671 STOI: 0.282 |
| speaker-specific-lip-to-speech-synthesis-on-6 | Lip2Wav | ESTOI: 0.29 PESQ: 1.4 STOI: 0.418 |
| speaker-specific-lip-to-speech-synthesis-on-7 | Lip2Wav | ESTOI: 0.284 PESQ: 1.3 STOI: 0.416 |