3 个月前

AQ-GT:一种时序对齐且量化后的GRU-Transformer用于共言语手势生成

AQ-GT:一种时序对齐且量化后的GRU-Transformer用于共言语手势生成

摘要

在多模态人工智能代理的构建中,生成逼真且符合语境的伴随言语手势是一项具有挑战性但日益重要的任务。以往的方法主要致力于建立手势表示与生成动作之间的直接映射关系,尽管生成的手势看似自然,但在人类评估中往往缺乏说服力。本文提出一种新方法,通过引入带有量化流程的生成对抗网络(GAN)对部分手势序列进行预训练。所得的码本向量在本框架中同时作为输入与输出,构成手势生成与重建的基础。与直接映射至向量表示不同,该框架通过学习潜在空间的映射关系,能够生成高度逼真且富有表现力的手势,精准还原人类运动与行为特征,同时有效避免生成过程中的伪影问题。我们通过与现有主流手势生成方法以及现有真实人类行为数据集进行对比,对所提方法进行了全面评估,并进一步开展了消融实验以验证其有效性。实验结果表明,本方法在性能上显著优于当前最先进的技术,生成的手势在人类感知中部分已难以与真实人类手势相区分。相关数据处理流程与生成框架已公开发布,供学术界和工业界使用。

代码仓库

hvoss-techfak/AQGT
官方
pytorch

基准测试

基准方法指标
gesture-generation-on-ted-gesture-datasetAQ-GT
FGD: 1.612

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AQ-GT:一种时序对齐且量化后的GRU-Transformer用于共言语手势生成 | 论文 | HyperAI超神经