5 个月前

TransNet V2:一种有效的深度网络架构用于快速镜头过渡检测

TransNet V2:一种有效的深度网络架构用于快速镜头过渡检测

摘要

尽管自动镜头转换检测方法已经研究了二十多年,但至今尚未提出一种有效的、达到人类水平的通用模型。即使对于常见的镜头转换类型,如硬切或简单的渐变,分析视频内容的潜在多样性仍可能导致误检和漏检。近年来,基于深度学习的方法通过使用3D卷积架构和人工生成的训练数据显著提高了镜头转换检测的准确性。然而,百分之百的准确率仍然是一个难以实现的理想目标。在本文中,我们分享了当前版本的深度网络TransNet V2,该模型在受尊敬的基准测试中达到了最先进的性能。我们提供了一个经过训练的模型实例,以便社区能够立即用于高效分析大规模视频档案。此外,本文详细介绍了网络架构以及我们在训练过程中的经验,并提供了简单的代码片段以方便使用所提出的模型并可视化结果。

代码仓库

soCzech/MasterThesis
GitHub 中提及
soCzech/TransNetV2
官方
tf
GitHub 中提及
wqliu657/TransNetV2
tf
GitHub 中提及

基准测试

基准方法指标
camera-shot-boundary-detection-on-clipshotsTransNet V2
F1 score: 77.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TransNet V2:一种有效的深度网络架构用于快速镜头过渡检测 | 论文 | HyperAI超神经