8 个月前

K R Prajwal Rudrabha Mukhopadhyay Vinay P. Namboodiri C V Jawahar

摘要

人类在听不到说话声或外部噪音干扰时，往往会不由自主地从说话者的唇部动作中推断出部分对话内容。在这项研究中，我们探讨了唇动到语音合成的任务，即仅通过说话者的唇部动作来生成自然的语音。鉴于上下文和特定说话者线索对准确唇读的重要性，我们的研究路径与现有工作有所不同。我们专注于在不受限制、大词汇量的环境中学习个体说话者的唇动序列与语音之间的精确映射关系。为此，我们收集并发布了一个大规模基准数据集，这是首个专门用于在自然环境中训练和评估单个说话者唇动到语音任务的数据集。我们提出了一种新颖的方法，并做出了关键的设计选择，首次在这样的不受限场景中实现了准确且自然的唇动到语音合成。广泛的定量、定性和人工评估表明，我们的方法比该领域的先前工作具有四倍更高的可理解性。请观看我们的演示视频以快速了解论文、方法和定性结果。https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

K R Prajwal Rudrabha Mukhopadhyay Vinay P. Namboodiri C V Jawahar

摘要

人类在听不到说话声或外部噪音干扰时，往往会不由自主地从说话者的唇部动作中推断出部分对话内容。在这项研究中，我们探讨了唇动到语音合成的任务，即仅通过说话者的唇部动作来生成自然的语音。鉴于上下文和特定说话者线索对准确唇读的重要性，我们的研究路径与现有工作有所不同。我们专注于在不受限制、大词汇量的环境中学习个体说话者的唇动序列与语音之间的精确映射关系。为此，我们收集并发布了一个大规模基准数据集，这是首个专门用于在自然环境中训练和评估单个说话者唇动到语音任务的数据集。我们提出了一种新颖的方法，并做出了关键的设计选择，首次在这样的不受限场景中实现了准确且自然的唇动到语音合成。广泛的定量、定性和人工评估表明，我们的方法比该领域的先前工作具有四倍更高的可理解性。请观看我们的演示视频以快速了解论文、方法和定性结果。https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供