4 个月前

FaceXHuBERT:基于自监督语音表征学习的无文本语音驱动表达性3D面部动画合成

FaceXHuBERT:基于自监督语音表征学习的无文本语音驱动表达性3D面部动画合成

摘要

本文介绍了FaceXHuBERT,这是一种无需文本的语音驱动3D面部动画生成方法,能够捕捉语音中的个性化和细微线索(例如身份、情感和犹豫)。该方法对背景噪声具有很强的鲁棒性,可以处理在多种情况下录制的音频(例如多人讲话)。近期的方法采用了端到端深度学习技术,同时考虑音频和文本作为输入来生成整个面部的动画。然而,公开可用的表情丰富的音频-3D面部动画数据集稀缺,成为主要瓶颈。因此,生成的动画在准确口型同步、表情丰富度、个人特定信息和泛化能力方面仍存在问题。我们有效地利用了自监督预训练的HuBERT模型,在训练过程中无需使用大型词汇表即可结合音频中的词汇和非词汇信息。此外,通过二元情感条件和说话者身份引导训练,能够区分最细微的面部运动。我们进行了广泛的客观和主观评估,并与真实数据和现有最先进方法进行了比较。感知用户研究显示,在78%的情况下,我们的方法在动画的真实感方面优于现有最先进技术。此外,我们的方法速度提高了4倍,消除了使用复杂序列模型(如变压器)的需求。我们强烈建议在阅读论文之前观看补充视频。我们还提供了实现代码和评估代码,并附上了GitHub仓库链接。

代码仓库

galib360/facexhubert
官方
jax
GitHub 中提及

基准测试

基准方法指标
3d-face-animation-on-biwi-3d-audiovisualFaceXHuBERT
FDD: 4.96
Lip Vertex Error: 4.56

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FaceXHuBERT:基于自监督语音表征学习的无文本语音驱动表达性3D面部动画合成 | 论文 | HyperAI超神经