4 个月前

在野外环境下生成唇形所需的只是一个唇同步专家

在野外环境下生成唇形所需的只是一个唇同步专家

摘要

在这项工作中,我们研究了将任意身份的说话人脸视频与目标语音片段同步的问题。目前的研究在静态图像或训练阶段见过的特定人物的视频上生成准确的唇部动作方面表现出色。然而,它们无法准确地变形任意身份在动态、无约束的说话人脸视频中的唇部动作,导致视频的很大一部分与新的音频不同步。我们确定了与此问题相关的关键原因,并通过从一个强大的唇同步判别器中学习来解决这些问题。接下来,我们提出了新的、严格的评估基准和指标,以准确测量无约束视频中的唇同步效果。我们在具有挑战性的基准上进行了广泛的定量评估,结果显示我们的Wav2Lip模型生成的视频唇同步准确性几乎与真实同步视频相当。我们在网站上提供了一个演示视频,清晰展示了我们的Wav2Lip模型和评估基准的重大影响:https://cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip-generation-in-the-wild。代码和模型已发布在以下GitHub仓库:https://github.com/Rudrabha/Wav2Lip。您还可以通过以下链接尝试交互式演示:https://bhaasha.iiit.ac.in/lipsync。

代码仓库

PrashanthaTP/wav2mov
pytorch
GitHub 中提及
Rudrabha/Wav2Lip
官方
pytorch
GitHub 中提及
rockstar-0000/lip_sync_test
pytorch
GitHub 中提及

基准测试

基准方法指标
lip-sync-on-lrs2Wav2Lip + GAN
FID: 4.446
LSE-D: 6.469
lip-sync-on-lrs2Wav2Lip
FID: 4.887
LSE-C: 7.781
LSE-D: 6.386
lip-sync-on-lrs3Wav2Lip + GAN
FID: 4.35
LSE-C: 7.574
LSE-D: 6.986
lip-sync-on-lrs3Wav2Lip
FID: 4.844
LSE-C: 7.887
LSE-D: 6.652
lip-sync-on-lrwWav2Lip
FID: 3.189
LSE-C: 7.49
LSE-D: 6.512
lip-sync-on-lrwWav2Lip + GAN
FID: 2.475
LSE-C: 7.263
LSE-D: 6.774

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在野外环境下生成唇形所需的只是一个唇同步专家 | 论文 | HyperAI超神经