4 个月前

FaceFormer:基于语音驱动的3D面部动画生成模型

FaceFormer:基于语音驱动的3D面部动画生成模型

摘要

基于语音的3D面部动画由于人类面部的复杂几何结构以及3D音视频数据的有限可用性而具有挑战性。先前的研究通常集中在学习短音频窗口中的音素级特征,这些特征包含的上下文信息有限,有时会导致唇部运动不准确。为了解决这一局限性,我们提出了一种基于Transformer的自回归模型——FaceFormer,该模型能够编码长期音频上下文并自回归地预测一系列动画化的3D人脸网格。为了应对数据稀缺问题,我们集成了自监督预训练的语音表示。此外,我们设计了两种适用于此特定任务的偏置注意力机制,包括偏置跨模态多头(MH)注意力和带有周期位置编码策略的偏置因果MH自注意力。前者有效地对齐了音频-运动模态,而后者则提供了泛化到更长音频序列的能力。广泛的实验和感知用户研究表明,我们的方法优于现有的最先进方法。代码将对外公开。

代码仓库

EvelynFan/FaceFormer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-face-animation-on-beat2FaceFormer
MSE: 7.787
3d-face-animation-on-biwi-3d-audiovisualFaceFormer
FDD: 4.6408
Lip Vertex Error: 5.3077
3d-face-animation-on-vocasetFaceFormer
Lip Vertex Error: 5.3742

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FaceFormer:基于语音驱动的3D面部动画生成模型 | 论文 | HyperAI超神经