3 个月前

基于流匹配的统一语音与手势合成

基于流匹配的统一语音与手势合成

摘要

随着文本转语音技术在朗读任务中实现了令人瞩目的自然度,学术界对语音与非语言交际行为(如即兴言语及其伴随的身体动作)的多模态合成兴趣日益增长。本文提出了一种新颖的统一架构,能够从文本中联合生成语音声学特征与基于骨骼的三维手势动作,该架构采用最优传输条件流匹配(OT-CFM)进行训练。相较于先前的最先进方法,所提出的架构更为简洁,内存占用更小,且能够有效建模语音与手势之间的联合分布,实现两种模态在单一过程中的一体化生成。同时,新的训练机制显著提升了合成质量,并在远少于以往步骤(网络评估次数)的情况下达成更优效果。主观评估实验(包括单模态与多模态测试)表明,与现有基准相比,本文方法在语音自然度、手势人形度以及跨模态适配性方面均取得显著提升。更多视频示例与代码请访问:https://shivammehta25.github.io/Match-TTSG/。

基准测试

基准方法指标
motion-synthesis-on-trinity-speech-gestureMatch-TTSG
Mean Opinion Score: 3.44
text-to-speech-synthesis-on-trinity-speechMatch-TTSG
MOS: 3.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于流匹配的统一语音与手势合成 | 论文 | HyperAI超神经