6 个月前

计算机视觉

Shunlin Lu Ling-Hao Chen Ailing Zeng Jing Lin Ruimao Zhang Lei Zhang Heung-Yeung Shum

摘要

本研究针对一项新颖的文本驱动全身动作生成任务，该任务以给定的文本描述作为输入，旨在同时生成高质量、多样化且连贯的面部表情、手势及全身动作。以往在文本驱动动作生成领域的研究主要存在两大局限：一是忽视了精细的手部与面部控制在生动全身动作生成中的关键作用；二是缺乏文本与动作之间良好的对齐性。为解决上述问题，本文提出一种文本对齐的全身动作生成框架——HumanTOMATO（Text-aligned whOle-body Motion generATiOn），据我们所知，这是该研究领域中首次尝试实现可实用的综合性全身动作生成。为应对这一挑战性任务，我们的方法包含两项核心设计：（1）采用一种分层式整体量化变分自编码器（简称 H²VQ）与分层GPT模型，结合两个结构化的码本，实现对身体与手部动作的精细化重建与生成；（2）引入一个预训练的文本-动作对齐模型，以显式引导生成的动作与输入文本描述保持一致。大量实验证明，所提模型在生成动作的质量以及文本与动作之间的对齐性方面均展现出显著优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Shunlin Lu Ling-Hao Chen Ailing Zeng Jing Lin Ruimao Zhang Lei Zhang Heung-Yeung Shum

摘要

本研究针对一项新颖的文本驱动全身动作生成任务，该任务以给定的文本描述作为输入，旨在同时生成高质量、多样化且连贯的面部表情、手势及全身动作。以往在文本驱动动作生成领域的研究主要存在两大局限：一是忽视了精细的手部与面部控制在生动全身动作生成中的关键作用；二是缺乏文本与动作之间良好的对齐性。为解决上述问题，本文提出一种文本对齐的全身动作生成框架——HumanTOMATO（Text-aligned whOle-body Motion generATiOn），据我们所知，这是该研究领域中首次尝试实现可实用的综合性全身动作生成。为应对这一挑战性任务，我们的方法包含两项核心设计：（1）采用一种分层式整体量化变分自编码器（简称 H²VQ）与分层GPT模型，结合两个结构化的码本，实现对身体与手部动作的精细化重建与生成；（2）引入一个预训练的文本-动作对齐模型，以显式引导生成的动作与输入文本描述保持一致。大量实验证明，所提模型在生成动作的质量以及文本与动作之间的对齐性方面均展现出显著优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供