
摘要
大规模数据集在近期面部生成/编辑的成功中发挥了不可或缺的作用,并显著推动了新兴研究领域的进展。然而,学术界仍然缺乏一个具有多样化面部属性注释的视频数据集,这对于面部相关视频的研究至关重要。在这项工作中,我们提出了一种大规模、高质量且多样化的视频数据集,该数据集包含丰富的面部属性注释,命名为高质名人视频数据集(CelebV-HQ)。CelebV-HQ 包含至少分辨率为 512x512 的 35,666 段视频片段,涉及 15,653 个身份。所有片段均通过人工标注了 83 种面部属性,涵盖外观、动作和情感。我们从年龄、种族、亮度稳定性、运动平滑性、头部姿态多样性以及数据质量等方面进行了全面分析,以展示 CelebV-HQ 的多样性和时间连贯性。此外,其多功能性和潜力在两个代表性任务上得到了验证,即无条件视频生成和视频面部属性编辑。我们还展望了 CelebV-HQ 的未来潜力,以及它将为相关研究方向带来的新机遇和挑战。数据、代码和模型均已公开发布。项目页面:https://celebv-hq.github.io。
代码仓库
celebv-hq/celebv-hq
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unconditional-video-generation-on-celebv-hq | StyleGAN-V | FID: 17.95 FVD: 69.17 |
| unconditional-video-generation-on-celebv-hq | DIGAN | FID: 19.39 FVD: 72.98 |
| unconditional-video-generation-on-celebv-hq | MoCoGAN-HD | FID: 21.55 FVD: 212.41 |
| unconditional-video-generation-on-celebv-hq | VideoGPT | FID: 52.95 FVD: 177.89 |