5 个月前

基于深度结构模型的快速视频镜头转换定位

基于深度结构模型的快速视频镜头转换定位

摘要

视频镜头转换检测是视频分析中的一个关键预处理步骤。以往的研究主要集中在通过相似度测量来检测帧之间的突然内容变化,多尺度操作被广泛用于处理各种长度的转换。然而,由于相邻帧之间具有较高的视觉相似性,渐变转换的定位仍是一个未充分探索的问题。突变镜头转换表现为语义上的突然断裂,而渐变镜头转换除了包含逐渐的语义断裂外,还包含由视频效果引起的低层次时空模式,例如溶解(dissolve)。为了解决这一问题,我们提出了一种结构化的网络,该网络能够使用专门的模型分别检测这两种镜头转换。考虑到速度与性能之间的权衡,我们设计了一个智能框架。在使用一块TITAN显卡的情况下,所提出的方法可以实现30倍实时速度。在公共TRECVID07和RAI数据库上的实验表明,我们的方法优于现有的最先进方法。为了训练高性能的镜头转换检测器,我们贡献了一个新的数据库ClipShots,其中包含了来自4039个在线视频的128636个突变镜头转换和38120个渐变镜头转换。ClipShots特意收集了短视频片段,以涵盖更多因手持相机抖动、大物体运动和遮挡导致的复杂情况。

代码仓库

soCzech/TransNetV2
tf
GitHub 中提及
Tangshitao/ClipShots_basline
pytorch
GitHub 中提及
wqliu657/TransNetV2
tf
GitHub 中提及
Tangshitao/ClipShots
官方
GitHub 中提及

基准测试

基准方法指标
camera-shot-boundary-detection-on-clipshotsDSM Cut transition detector
F1 score: 76.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度结构模型的快速视频镜头转换定位 | 论文 | HyperAI超神经