3 个月前

情感增强的对话人脸生成

情感增强的对话人脸生成

摘要

已有若干研究工作构建了端到端的语音同步说话人脸生成流水线,广泛应用于教学、视频语言翻译等现实场景。然而,这些先前方法在生成视频时难以呈现逼真的视觉效果,主要原因在于其对人物表情与情感表达的关注不足。此外,这些方法的性能高度依赖训练数据集中的人脸特征,导致其在面对未见过的人脸时表现不佳。为缓解这一问题,本文提出一种基于类别化情感条件的说话人脸生成框架,能够生成与情感相匹配的自然表情,从而提升生成视频的真实感与可信度。该框架支持六种基本情感类别——喜悦、悲伤、恐惧、愤怒、厌恶与中性,实验表明,所提模型可有效适应任意身份、情感状态及语言。此外,本研究还开发了一个用户友好的网页交互界面,支持实时生成带情感表达的说话人脸视频。我们进一步开展了用户研究,对界面的可用性、设计与功能进行了主观评估。项目主页:https://midas.iiitd.edu.in/emo/

代码仓库

sahilg06/EmoGen
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
talking-face-generation-on-crema-dEmoGen
EmoAcc: 83.2
FID: 5.29
LSE-C: 6.663

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
情感增强的对话人脸生成 | 论文 | HyperAI超神经