
摘要
近日,基于深度学习的模型在图像操作检测方面表现出色。然而,大多数模型由于手工设计或预设特征的普遍性较差而受到影响。同时,这些模型仅关注于操作定位,而忽视了操作分类。为了解决这些问题,我们提出了一种名为约束R-CNN(Constrained R-CNN)的从粗到细架构,以实现完整且准确的图像取证。首先,可学习的操作特征提取器直接从数据中学习统一的特征表示。其次,注意力区域提议网络有效地区分了被操纵区域,以便进行后续的操作分类和粗略定位。然后,跳层结构融合了低级和高级信息,以精炼全局操作特征。最后,粗略定位信息引导模型进一步学习更精细的局部特征并分割出篡改区域。实验结果表明,我们的模型达到了最先进的性能。特别是在NIST16、COVERAGE和Columbia数据集上,F1分数分别提高了28.4%、73.2%和13.3%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-manipulation-detection-on-casia-v1 | CR-CNN | AUC: .670 Balanced Accuracy: .481 |
| image-manipulation-detection-on-cocoglide | CR-CNN | AUC: .589 Balanced Accuracy: .447 |
| image-manipulation-detection-on-columbia | CR-CNN | AUC: .755 Balanced Accuracy: .631 |
| image-manipulation-detection-on-coverage | CR-CNN | AUC: .553 Balanced Accuracy: .391 |
| image-manipulation-detection-on-dso-1 | CR-CNN | AUC: .576 Balanced Accuracy: .289 |
| image-manipulation-localization-on-casia-v1 | CR-CNN | Average Pixel F1(Fixed threshold): .481 |
| image-manipulation-localization-on-cocoglide | CR-CNN | Average Pixel F1(Fixed threshold): .447 |
| image-manipulation-localization-on-columbia | CR-CNN | Average Pixel F1(Fixed threshold): .631 |
| image-manipulation-localization-on-coverage | CR-CNN | Average Pixel F1(Fixed threshold): .391 |
| image-manipulation-localization-on-dso-1 | CR-CNN | Average Pixel F1(Fixed threshold): .289 |