
摘要
当前,人脸伪造视频检测面临的一项关键挑战是如何在训练过程中未见过的伪造方法上实现良好的泛化能力,同时在常见的图像压缩等退化条件下仍保持有效性。本文探讨了一种新思路:利用大量在线可获取的真实说话人脸视频,这些视频蕴含丰富的自然面部外观与行为信息,可作为有效数据源。我们提出的方法称为RealForensics,包含两个阶段。第一阶段,通过利用真实视频中视觉与听觉模态之间的自然对应关系,采用自监督的跨模态学习方式,构建时序密集的视频表征,以捕捉面部运动、表情变化及身份特征等关键因素。第二阶段,将这些学习到的表征作为目标,与传统的二分类伪造检测任务共同作用于检测器;这一设计促使检测器在判断视频真伪时,基于上述自然特征进行决策。实验结果表明,所提方法在跨伪造方法泛化与鲁棒性测试中均达到当前最优性能,并进一步分析了影响其性能的关键因素。研究结果表明,利用自然且无需标注的视频数据,是提升人脸伪造检测器鲁棒性的一条极具前景的发展方向。
代码仓库
ahaliassos/RealForensics
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| deepfake-detection-on-fakeavceleb-1 | RealForensics | AP: 95.3 ROC AUC: 97.1 |
| deepfake-detection-on-fakeavceleb-1 | AVBYOL | AP: 73.9 ROC AUC: 59.2 |