摘要

在本文中，我们提出了一种名为 MINTIME 的视频深度伪造检测方法，该方法能够捕捉视频中时空异常，并有效处理同一视频内存在多个个体以及人脸尺寸变化的情况。以往的方法通常忽略此类信息，或采用简单的后验聚合策略（如平均值或最大值操作），或仅以单一身份（通常是最大人脸）进行推理。相比之下，本文提出的方法基于时空 TimeSformer 与卷积神经网络（CNN）主干网络的结合，从视频中多个身份的人脸序列中捕捉时空异常。这一目标通过一种身份感知注意力机制实现，该机制基于掩码操作独立关注每个面部序列，并支持视频级别的信息聚合。此外，本文引入两种新型嵌入方式：（i）时间一致位置嵌入（Temporal Coherent Positional Embedding），用于编码每个面部序列的时间信息；（ii）尺寸嵌入（Size Embedding），用于将人脸尺寸表示为相对于视频帧尺寸的比率。这些改进使我们的系统在真实场景中表现出色，能够学习如何有效聚合多身份信息，而这一点在现有大多数方法中常被忽略。在 ForgeryNet 数据集上，MINTIME 在包含多个个体的视频中实现了最高达 14% 的 AUC 提升，展现出优异的跨伪造类型与跨数据集泛化能力。相关代码已公开，可访问：https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection。

源 PDF