19 天前

基于全卷积神经网络的超快速镜头边界检测

基于全卷积神经网络的超快速镜头边界检测

摘要

镜头边界检测(Shot Boundary Detection, SBD)是诸多视频分析任务中的关键环节,例如动作识别、视频索引、摘要生成和视频编辑。以往的研究通常结合颜色直方图等低层特征,并采用支持向量机(SVM)等简单模型进行处理。与此不同,我们提出一种端到端的镜头检测方法,直接从像素输入到最终的镜头边界输出进行学习。为训练此类模型,我们基于一个关键洞察:所有镜头边界均是人为生成的。因此,我们构建了一个包含一百万帧的视频数据集,并自动标注了各类转场效果,如切变(cuts)、淡入淡出(dissolves)和渐隐(fades)。为了高效分析长达数小时的视频内容,我们提出一种在时间维度上完全卷积的卷积神经网络(Convolutional Neural Network, CNN),该结构能够利用大范围的时间上下文信息,而无需重复处理每一帧。借助这一架构,我们的方法在取得当前最优性能的同时,运行速度达到了前所未有的超过120倍实时处理速度。

代码仓库

MikeG112/RFSBD
pytorch
GitHub 中提及
Tangshitao/ClipShots_basline
pytorch
GitHub 中提及
oladeha2/shot_boudary_detector
pytorch
GitHub 中提及

基准测试

基准方法指标
camera-shot-boundary-detection-on-msu-shotjohmathe
F score: 0.7492
FPS: 94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于全卷积神经网络的超快速镜头边界检测 | 论文 | HyperAI超神经