
摘要
鉴于近期在自动机器翻译系统方面取得的重大突破,我们提出了一种新颖的方法,称之为“面对面翻译”(Face-to-Face Translation)。随着当今数字通信日益视觉化,我们认为有必要开发能够将一个人用语言A讲话的视频自动翻译成目标语言B,并实现逼真的唇形同步的系统。在这项工作中,我们为这一问题创建了一个自动流水线,并展示了其在多个实际应用中的影响。首先,我们将现有的语音和语言模块整合在一起,构建了一个功能性的语音到语音翻译系统。然后,通过引入一个新颖的视觉模块——LipGAN(用于从翻译后的音频生成逼真的说话人脸),我们进一步推进了“面对面翻译”。LipGAN在标准LRW测试集上的定量评估表明,它在所有标准指标上显著优于现有方法。此外,我们还对我们的“面对面翻译”流水线进行了多次人工评估,结果显示该系统可以显著提升用户跨语言消费和互动多模态内容的整体体验。代码、模型和演示视频已公开提供。演示视频:https://www.youtube.com/watch?v=aHG6Oei8jF0代码和模型:https://github.com/Rudrabha/LipGAN
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| talking-face-generation-on-lrw | LipGAN | LMD: 0.60 SSIM: 0.96 |