
摘要
镜头边界检测(Shot Boundary Detection, SBD)是视频篡改分析中的一个重要预处理步骤。在此任务中,视频帧序列被分类为三类:硬切(sharp)、渐变(gradual)或无过渡(no transition)。当前的SBD技术通常依赖手工设计的特征,并试图在检测准确率与处理速度之间取得平衡。然而,光流计算的高复杂度严重限制了这一目标的实现。为解决该问题,本文提出一种基于时空卷积神经网络(Spatio-Temporal Convolutional Neural Networks, CNN)的SBD方法。由于现有数据集规模有限,难以训练出高精度的SBD CNN模型,我们构建了一个全新的数据集,包含超过350万帧的硬切与渐变过渡样本。这些过渡效果通过图像合成模型进行合成生成。此外,该数据集还包含7万帧具有挑战性的“难负样本”(hard-negative no transitions),用于提升模型对无过渡情况的判别能力。我们在真实与合成数据上对单一SBD算法进行了迄今为止规模最大的评估,总样本量超过485万帧。实验结果表明,与现有最先进方法相比,我们的方法在渐变过渡检测方面表现更优,硬切检测性能达到竞争性水平,并在擦除(wipe)类过渡检测上实现了显著提升。同时,我们的方法在处理速度上比现有最优方法快达11倍。
代码仓库
soCzech/TransNetV2
tf
GitHub 中提及
wqliu657/TransNetV2
tf
GitHub 中提及
Tangshitao/ClipShots
GitHub 中提及
melgharib/DSBD
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camera-shot-boundary-detection-on-clipshots | DeepSBD | F1 score: 75.9 |
| camera-shot-boundary-detection-on-msu-shot | PyScene | F score: 0.7349 FPS: 86 |
| camera-shot-boundary-detection-on-msu-shot | PyScene-v2 | F score: 0.7534 FPS: 86 |