3 个月前

韵律手势生成器:基于分层神经嵌入的韵律感知协同言语手势合成

韵律手势生成器:基于分层神经嵌入的韵律感知协同言语手势合成

摘要

在构建具身化人工智能代理(artificial embodied agent)的过程中,自动生成逼真的伴随言语手势(co-speech gestures)已成为一项日益重要且极具挑战性的任务。以往的方法主要采用端到端的方式生成手势,但由于语音与手势之间复杂而微妙的协调关系,导致难以有效挖掘出清晰的节奏结构与语义信息。为此,我们提出一种新颖的伴随言语手势生成方法,在节奏与语义两个方面均取得了令人信服的效果。在节奏建模方面,我们的系统引入了一套稳健的基于节奏的分割流程,显式地保证语音与手势之间的时序一致性。在手势语义建模方面,我们基于语言学理论,设计了一种机制,能够有效解耦语音与动作的低层和高层神经嵌入表示:高层嵌入对应语义内容,而低层嵌入则捕捉细微的动态变化。最后,我们建立了语音与动作在层次化嵌入之间的对应关系,从而实现兼具节奏感知与语义感知的手势合成。通过现有客观指标、新提出的节奏性评估指标以及人工反馈的综合评估,实验结果表明,我们的方法在各项指标上均显著优于当前最先进的系统。

代码仓库

基准测试

基准方法指标
gesture-generation-on-ted-gesture-datasetRhythmic Gesticulator
FGD: 2.04

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
韵律手势生成器:基于分层神经嵌入的韵律感知协同言语手势合成 | 论文 | HyperAI超神经