4 个月前

利用音频和视频流改进足球动作检测

利用音频和视频流改进足球动作检测

摘要

本文提出了一项关于足球视频中多模态(音频和视频)动作检测与分类的研究。动作检测与分类的任务在于在视频中找到事件的时间锚点,并确定这些时间锚点对应的事件。这是泛活动理解的一个重要应用。在此研究中,我们提出了一项实验性研究,探讨如何在深度神经网络架构的不同阶段结合音频和视频信息。我们使用了SoccerNet基准数据集,该数据集包含来自欧洲五大联赛的500场足球比赛视频的标注事件。通过这项工作,我们评估了几种将音频流整合到仅基于视频的架构中的方法。结果表明,对于动作分类任务,平均绝对改进为均值平均精度(mAP)指标提高了7.43%;对于动作检测任务,平均绝对改进为均值平均精度(mAP)指标提高了4.19%。

基准测试

基准方法指标
action-spotting-on-soccernetAudioVid (Vanderplaetse et al.)
Average-mAP: 56.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用音频和视频流改进足球动作检测 | 论文 | HyperAI超神经