
摘要
近期的一些研究展示了如何通过训练卷积神经网络生成高度逼真的头部图像。为了创建个性化的说话头像模型,这些研究需要在一个包含大量单个人图像的数据集上进行训练。然而,在许多实际应用场景中,这样的个性化说话头像模型往往需要从少量甚至单张图像中学习。本文介绍了一种具备少样本学习能力的系统。该系统在大量视频数据集上进行了长时间的元学习,之后能够将先前未见过的人的神经说话头像模型的少样本和单样本学习问题转化为具有高容量生成器和判别器的对抗训练问题。关键在于,该系统能够以特定于个人的方式初始化生成器和判别器的参数,从而使得训练仅基于几张图像且能快速完成,尽管需要调整数千万个参数。我们证明了这种方法能够学习到高度逼真且个性化的新型说话头像模型,甚至包括肖像画。
代码仓库
grey-eye/talking-heads
pytorch
GitHub 中提及
Ierezell/PapierFewShot
pytorch
GitHub 中提及
vincent-thevenin/Realistic-Neural-Talking-Head-Models
pytorch
GitHub 中提及
ZVK/Talking-Heads
pytorch
GitHub 中提及
ZVK/talking_heads
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| talking-head-generation-on-voxceleb1-1-shot | Few-shot Adversarial Model | FID: 43.0 |
| talking-head-generation-on-voxceleb1-32-shot | Few-shot Adversarial Model | FID: 29.5 |
| talking-head-generation-on-voxceleb1-8-shot | Few-shot Adversarial Model | FID: 38.0 |
| talking-head-generation-on-voxceleb2-1-shot | Few-shot Adversarial Model | FID: 48.5 |
| talking-head-generation-on-voxceleb2-32-shot | Few-shot Adversarial Model | FID: 30.6 |
| talking-head-generation-on-voxceleb2-8-shot | Few-shot Adversarial Model | FID: 42.2 |