6 个月前

统一多模态

多模态表征

计算机视觉

Ruilong Li Shan Yang David A. Ross Angjoo Kanazawa

摘要

我们提出了AIST++，一个全新的多模态3D舞蹈动作与音乐数据集，以及FACT（Full-Attention Cross-modal Transformer）网络，用于根据音乐生成3D舞蹈动作。所提出的AIST++数据集包含5.2小时的3D舞蹈动作，共1408个序列，涵盖10种舞蹈风格，并配有已知相机位姿的多视角视频——据我们所知，这是目前规模最大的同类数据集。我们发现，简单地将序列模型（如Transformer）应用于该数据集以实现音乐条件下的3D动作生成任务，无法产生与输入音乐高度相关联的高质量3D动作。为克服这一局限，我们在模型架构设计与监督策略方面引入了关键改进：FACT模型采用深度的跨模态Transformer模块，具备全注意力机制，并训练其预测未来 $N$ 个动作帧。实验结果表明，这些改进是生成长序列且高度契合输入音乐的逼真舞蹈动作的关键因素。我们在AIST++数据集上进行了大量实验，并结合用户研究，结果表明，我们的方法在定性和定量两个方面均显著优于近期最先进的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

多模态表征

计算机视觉

Ruilong Li Shan Yang David A. Ross Angjoo Kanazawa

摘要

我们提出了AIST++，一个全新的多模态3D舞蹈动作与音乐数据集，以及FACT（Full-Attention Cross-modal Transformer）网络，用于根据音乐生成3D舞蹈动作。所提出的AIST++数据集包含5.2小时的3D舞蹈动作，共1408个序列，涵盖10种舞蹈风格，并配有已知相机位姿的多视角视频——据我们所知，这是目前规模最大的同类数据集。我们发现，简单地将序列模型（如Transformer）应用于该数据集以实现音乐条件下的3D动作生成任务，无法产生与输入音乐高度相关联的高质量3D动作。为克服这一局限，我们在模型架构设计与监督策略方面引入了关键改进：FACT模型采用深度的跨模态Transformer模块，具备全注意力机制，并训练其预测未来 $N$ 个动作帧。实验结果表明，这些改进是生成长序列且高度契合输入音乐的逼真舞蹈动作的关键因素。我们在AIST++数据集上进行了大量实验，并结合用户研究，结果表明，我们的方法在定性和定量两个方面均显著优于近期最先进的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供