3 个月前

上下文手势:通过上下文感知的手势表示实现伴随言语的手势视频生成

上下文手势:通过上下文感知的手势表示实现伴随言语的手势视频生成

摘要

话语同步手势生成在创建逼真虚拟形象及提升人机交互体验方面具有重要意义,其核心在于实现手势与语音的精准同步。尽管近年来该领域取得了显著进展,现有方法在准确识别语音中的节奏性或语义触发信号以生成具有上下文关联的手势模式,以及实现像素级真实感方面仍面临挑战。为应对这些难题,我们提出了一种名为“上下文手势”(Contextual Gesture)的新框架,通过三个创新组件显著提升话语同步手势视频的生成效果:(1)时间对齐的语音-手势序列建模,实现两种模态在时间维度上的精确关联;(2)上下文感知的手势标记化机制,通过知识蒸馏将语音上下文信息融入动作模式的表示中;(3)结构感知的精细化模块,利用关键点间的边缘连接关系,增强手势骨架结构的一致性,从而提升视频生成质量。大量实验表明,Contextual Gesture 不仅能够生成与语音高度对齐、视觉逼真的手势视频,还支持长序列生成与视频手势编辑等应用,相关成果如图1所示。项目主页:https://andypinxinliu.github.io/Contextual-Gesture/。

基准测试

基准方法指标
gesture-generation-on-beat2Contexual Gesture
FGD: 0.4434

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
上下文手势:通过上下文感知的手势表示实现伴随言语的手势视频生成 | 论文 | HyperAI超神经