5 个月前

TransNet V2：一种有效的深度网络架构用于快速镜头过渡检测

摘要

尽管自动镜头转换检测方法已经研究了二十多年，但至今尚未提出一种有效的、达到人类水平的通用模型。即使对于常见的镜头转换类型，如硬切或简单的渐变，分析视频内容的潜在多样性仍可能导致误检和漏检。近年来，基于深度学习的方法通过使用3D卷积架构和人工生成的训练数据显著提高了镜头转换检测的准确性。然而，百分之百的准确率仍然是一个难以实现的理想目标。在本文中，我们分享了当前版本的深度网络TransNet V2，该模型在受尊敬的基准测试中达到了最先进的性能。我们提供了一个经过训练的模型实例，以便社区能够立即用于高效分析大规模视频档案。此外，本文详细介绍了网络架构以及我们在训练过程中的经验，并提供了简单的代码片段以方便使用所提出的模型并可视化结果。