3 个月前

AI编舞师:基于AIST++的音乐条件3D舞蹈生成

AI编舞师:基于AIST++的音乐条件3D舞蹈生成

摘要

我们提出了AIST++,一个全新的多模态3D舞蹈动作与音乐数据集,以及FACT(Full-Attention Cross-modal Transformer)网络,用于根据音乐生成3D舞蹈动作。所提出的AIST++数据集包含5.2小时的3D舞蹈动作,共1408个序列,涵盖10种舞蹈风格,并配有已知相机位姿的多视角视频——据我们所知,这是目前规模最大的同类数据集。我们发现,简单地将序列模型(如Transformer)应用于该数据集以实现音乐条件下的3D动作生成任务,无法产生与输入音乐高度相关联的高质量3D动作。为克服这一局限,我们在模型架构设计与监督策略方面引入了关键改进:FACT模型采用深度的跨模态Transformer模块,具备全注意力机制,并训练其预测未来$N$个动作帧。实验结果表明,这些改进是生成长序列且高度契合输入音乐的逼真舞蹈动作的关键因素。我们在AIST++数据集上进行了大量实验,并结合用户研究,结果表明,我们的方法在定性和定量两个方面均显著优于近期最先进的方法。

代码仓库

基准测试

基准方法指标
motion-synthesis-on-aistAI Choreographer
Beat alignment score: 0.221
FID: 35.35
motion-synthesis-on-braceAIST++
Beat DTW cost: 12.92
Beat alignment score: 0.136
Footwork average: 40.73
Frechet Inception Distance: 0.5743
Powermove average: 52.89
Toprock average: 6.39
motion-synthesis-on-finedanceFACT
BAS: 0.1831
fid_k: 113.38

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AI编舞师:基于AIST++的音乐条件3D舞蹈生成 | 论文 | HyperAI超神经