6 个月前

计算机视觉

Pinxin Liu Pengfei Zhang Hyeongwoo Kim Pablo Garrido Ari Sharpio Kyle Olszewski

摘要

话语同步手势生成在创建逼真虚拟形象及提升人机交互体验方面具有重要意义，其核心在于实现手势与语音的精准同步。尽管近年来该领域取得了显著进展，现有方法在准确识别语音中的节奏性或语义触发信号以生成具有上下文关联的手势模式，以及实现像素级真实感方面仍面临挑战。为应对这些难题，我们提出了一种名为“上下文手势”（Contextual Gesture）的新框架，通过三个创新组件显著提升话语同步手势视频的生成效果：（1）时间对齐的语音-手势序列建模，实现两种模态在时间维度上的精确关联；（2）上下文感知的手势标记化机制，通过知识蒸馏将语音上下文信息融入动作模式的表示中；（3）结构感知的精细化模块，利用关键点间的边缘连接关系，增强手势骨架结构的一致性，从而提升视频生成质量。大量实验表明，Contextual Gesture 不仅能够生成与语音高度对齐、视觉逼真的手势视频，还支持长序列生成与视频手势编辑等应用，相关成果如图1所示。项目主页：https://andypinxinliu.github.io/Contextual-Gesture/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Pinxin Liu Pengfei Zhang Hyeongwoo Kim Pablo Garrido Ari Sharpio Kyle Olszewski

摘要

话语同步手势生成在创建逼真虚拟形象及提升人机交互体验方面具有重要意义，其核心在于实现手势与语音的精准同步。尽管近年来该领域取得了显著进展，现有方法在准确识别语音中的节奏性或语义触发信号以生成具有上下文关联的手势模式，以及实现像素级真实感方面仍面临挑战。为应对这些难题，我们提出了一种名为“上下文手势”（Contextual Gesture）的新框架，通过三个创新组件显著提升话语同步手势视频的生成效果：（1）时间对齐的语音-手势序列建模，实现两种模态在时间维度上的精确关联；（2）上下文感知的手势标记化机制，通过知识蒸馏将语音上下文信息融入动作模式的表示中；（3）结构感知的精细化模块，利用关键点间的边缘连接关系，增强手势骨架结构的一致性，从而提升视频生成质量。大量实验表明，Contextual Gesture 不仅能够生成与语音高度对齐、视觉逼真的手势视频，还支持长序列生成与视频手势编辑等应用，相关成果如图1所示。项目主页：https://andypinxinliu.github.io/Contextual-Gesture/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供