4 个月前

学习个体说话风格以实现准确的唇形到语音合成

学习个体说话风格以实现准确的唇形到语音合成

摘要

人类在听不到说话声或外部噪音干扰时,往往会不由自主地从说话者的唇部动作中推断出部分对话内容。在这项研究中,我们探讨了唇动到语音合成的任务,即仅通过说话者的唇部动作来生成自然的语音。鉴于上下文和特定说话者线索对准确唇读的重要性,我们的研究路径与现有工作有所不同。我们专注于在不受限制、大词汇量的环境中学习个体说话者的唇动序列与语音之间的精确映射关系。为此,我们收集并发布了一个大规模基准数据集,这是首个专门用于在自然环境中训练和评估单个说话者唇动到语音任务的数据集。我们提出了一种新颖的方法,并做出了关键的设计选择,首次在这样的不受限场景中实现了准确且自然的唇动到语音合成。广泛的定量、定性和人工评估表明,我们的方法比该领域的先前工作具有四倍更高的可理解性。请观看我们的演示视频以快速了解论文、方法和定性结果。https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be

代码仓库

Rudrabha/Lip2Wav
官方
tf
GitHub 中提及

基准测试

基准方法指标
lip-to-speech-synthesis-on-lrwLip2Wav
ESTOI: 0.344
PESQ: 1.197
STOI: 0.543
speaker-specific-lip-to-speech-synthesis-onLip2Wav
ESTOI: 0.535
PESQ: 1.772
STOI: 0.731
speaker-specific-lip-to-speech-synthesis-on-1Lip2Wav
ESTOI: 36.5
PESQ: 1.35
STOI: 0.558
speaker-specific-lip-to-speech-synthesis-on-3Lip2Wav
ESTOI: 0.22
PESQ: 1.367
STOI: 0.369
speaker-specific-lip-to-speech-synthesis-on-4Lip2Wav
ESTOI: 0.311
PESQ: 1.29
STOI: 0.446
speaker-specific-lip-to-speech-synthesis-on-5Lip2Wav
ESTOI: 0.183
PESQ: 1.671
STOI: 0.282
speaker-specific-lip-to-speech-synthesis-on-6Lip2Wav
ESTOI: 0.29
PESQ: 1.4
STOI: 0.418
speaker-specific-lip-to-speech-synthesis-on-7Lip2Wav
ESTOI: 0.284
PESQ: 1.3
STOI: 0.416

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习个体说话风格以实现准确的唇形到语音合成 | 论文 | HyperAI超神经