3 个月前

基于高效网络与视觉Transformer的视频深度伪造检测

基于高效网络与视觉Transformer的视频深度伪造检测

摘要

深度伪造(Deepfakes)是通过数字技术对图像进行篡改,生成看似真实却虚假的视觉内容。随着深度生成模型的迅猛发展,当前的虚假图像或视频主要利用变分自编码器(Variational Autoencoders, VAEs)或生成对抗网络(Generative Adversarial Networks, GANs)生成。这些技术日益普及且精度不断提高,导致生成的伪造视频极难被识别。传统上,卷积神经网络(Convolutional Neural Networks, CNNs)被广泛用于视频深度伪造检测任务,其中基于EfficientNet B7的方法取得了最佳性能。本研究聚焦于人脸深度伪造检测,原因在于当前生成技术在合成逼真人脸方面已达到极高的真实度。具体而言,我们结合多种视觉Transformer(Vision Transformers)架构,并采用卷积型EfficientNet B0作为特征提取器,取得了与近期先进视觉Transformer方法相当的检测效果。与现有最先进方法不同,我们的方法未使用知识蒸馏(distillation)或集成学习(ensemble)策略。此外,我们提出一种简明高效的推理机制,基于简单的投票机制,有效处理同一视频帧中存在多个面部的情况。实验结果表明,所提出的最优模型在DeepFake Detection Challenge(DFDC)数据集上取得了0.951的AUC值和88.0%的F1分数,性能接近当前最先进水平,充分验证了方法的有效性与实用性。

基准测试

基准方法指标
deepfake-detection-on-dfdcCross Efficient Vision Transformer
AUC: 0.951
deepfake-detection-on-dfdcEfficient Vision Transformer
AUC: 0.919

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于高效网络与视觉Transformer的视频深度伪造检测 | 论文 | HyperAI超神经