
摘要
尽管自动镜头转换检测方法已经研究了二十多年,但至今尚未提出一种有效的、达到人类水平的通用模型。即使对于常见的镜头转换类型,如硬切或简单的渐变,分析视频内容的潜在多样性仍可能导致误检和漏检。近年来,基于深度学习的方法通过使用3D卷积架构和人工生成的训练数据显著提高了镜头转换检测的准确性。然而,百分之百的准确率仍然是一个难以实现的理想目标。在本文中,我们分享了当前版本的深度网络TransNet V2,该模型在受尊敬的基准测试中达到了最先进的性能。我们提供了一个经过训练的模型实例,以便社区能够立即用于高效分析大规模视频档案。此外,本文详细介绍了网络架构以及我们在训练过程中的经验,并提供了简单的代码片段以方便使用所提出的模型并可视化结果。
代码仓库
soCzech/MasterThesis
GitHub 中提及
soCzech/TransNetV2
官方
tf
GitHub 中提及
wqliu657/TransNetV2
tf
GitHub 中提及
shallwe999/TransNetV2-SBD-Visualize
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| camera-shot-boundary-detection-on-clipshots | TransNet V2 | F1 score: 77.9 |