
摘要
在这项工作中,我们研究了将任意身份的说话人脸视频与目标语音片段同步的问题。目前的研究在静态图像或训练阶段见过的特定人物的视频上生成准确的唇部动作方面表现出色。然而,它们无法准确地变形任意身份在动态、无约束的说话人脸视频中的唇部动作,导致视频的很大一部分与新的音频不同步。我们确定了与此问题相关的关键原因,并通过从一个强大的唇同步判别器中学习来解决这些问题。接下来,我们提出了新的、严格的评估基准和指标,以准确测量无约束视频中的唇同步效果。我们在具有挑战性的基准上进行了广泛的定量评估,结果显示我们的Wav2Lip模型生成的视频唇同步准确性几乎与真实同步视频相当。我们在网站上提供了一个演示视频,清晰展示了我们的Wav2Lip模型和评估基准的重大影响:https://cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip-generation-in-the-wild。代码和模型已发布在以下GitHub仓库:https://github.com/Rudrabha/Wav2Lip。您还可以通过以下链接尝试交互式演示:https://bhaasha.iiit.ac.in/lipsync。
代码仓库
PrashanthaTP/wav2mov
pytorch
GitHub 中提及
mowshon/lipsync
pytorch
Rudrabha/Wav2Lip
官方
pytorch
GitHub 中提及
rockstar-0000/lip_sync_test
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| lip-sync-on-lrs2 | Wav2Lip + GAN | FID: 4.446 LSE-D: 6.469 |
| lip-sync-on-lrs2 | Wav2Lip | FID: 4.887 LSE-C: 7.781 LSE-D: 6.386 |
| lip-sync-on-lrs3 | Wav2Lip + GAN | FID: 4.35 LSE-C: 7.574 LSE-D: 6.986 |
| lip-sync-on-lrs3 | Wav2Lip | FID: 4.844 LSE-C: 7.887 LSE-D: 6.652 |
| lip-sync-on-lrw | Wav2Lip | FID: 3.189 LSE-C: 7.49 LSE-D: 6.512 |
| lip-sync-on-lrw | Wav2Lip + GAN | FID: 2.475 LSE-C: 7.263 LSE-D: 6.774 |