4 个月前

MARLIN:用于面部视频表示学习的掩码自动编码器

MARLIN:用于面部视频表示学习的掩码自动编码器

摘要

本文提出了一种自监督方法,用于从视频中学习通用的面部表示,该方法可以应用于多种面部分析任务,如面部属性识别(FAR)、面部表情识别(FER)、深度伪造检测(DFD)和唇部同步(LS)。我们提出的框架名为MARLIN,是一种面部视频掩码自动编码器,可以从大量未标注的网络爬取面部视频中学习到高度鲁棒且通用的面部嵌入。作为一项具有挑战性的辅助任务,MARLIN 通过重建被密集掩码遮挡的面部区域(主要包括眼睛、鼻子、嘴巴、嘴唇和皮肤)的空间和时间细节,捕捉局部和全局特征,从而有助于编码通用且可迁移的特征。通过在各种下游任务上进行的一系列实验,我们展示了MARLIN 作为一种优秀的面部视频编码器和特征提取器,在包括FAR(比有监督基准提高1.13%)、FER(比无监督基准提高2.64%)、DFD(比无监督基准提高1.86%)、LS(Frechet Inception Distance 指标提高29.36%)等多种下游任务中表现一致良好,即使在数据量较少的情况下也是如此。我们的代码和模型可在 https://github.com/ControlNet/MARLIN 获取。

代码仓库

ControlNet/MARLIN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-celebv-hqMARLIN
AUC: 0.9406
Accuracy: 95.48
deepfake-detection-on-faceforensics-1MARLIN (ViT-B)
AUC: 0.9305
deepfake-detection-on-faceforensics-1MARLIN (ViT-L)
AUC: 0.9377
deepfake-detection-on-faceforensics-1MARLIN (ViT-S)
AUC: 0.8863
emotion-classification-on-cmu-moseiMARLIN (ViT-S)
Accuracy: 80.38
emotion-classification-on-cmu-moseiMARLIN (ViT-B)
Accuracy: 80.6
emotion-classification-on-cmu-moseiMARLIN (ViT-L)
Accuracy: 80.63
facial-attribute-classification-on-celebv-hqMARLIN
AUC: 0.9561
Accuracy: 93.9
lip-sync-on-lrs2Wav2Lip + ViT + MARLIN
FID: 3.452
LSE-C: 5.528
LSE-D: 7.127
multimodal-sentiment-analysis-on-cmu-mosei-1MARLIN (ViT-B)
Accuracy: 73.7
multimodal-sentiment-analysis-on-cmu-mosei-1MARLIN (ViT-S)
Accuracy: 72.69
multimodal-sentiment-analysis-on-cmu-mosei-1MARLIN (ViT-L)
Accuracy: 74.83

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MARLIN:用于面部视频表示学习的掩码自动编码器 | 论文 | HyperAI超神经