3 个月前

你只需观看一次:一种用于实时时空动作定位的统一CNN架构

你只需观看一次:一种用于实时时空动作定位的统一CNN架构

摘要

时空动作定位需要在所设计的网络架构中融合两种信息源:(1)来自前序帧的时间信息,以及(2)来自关键帧的空间信息。当前最先进的方法通常采用独立的网络分别提取这两类信息,并通过额外的融合机制实现检测结果的整合。在本工作中,我们提出YOWO,一种用于视频流中实时时空动作定位的统一卷积神经网络(CNN)架构。YOWO是一种单阶段架构,包含两个并行分支,能够同时提取时间与空间信息,并在一次前向推理中直接从视频片段预测出边界框和动作概率。由于整个架构高度统一,可实现端到端的联合优化。YOWO具有极高的运行效率:在输入16帧视频片段时达到34帧/秒的处理速度,在输入8帧片段时更高达62帧/秒,目前已成为时空动作定位任务中速度最快的先进架构。尤为突出的是,YOWO在J-HMDB-21和UCF101-24数据集上的表现显著优于此前的最先进方法,分别取得了约3%和12%的显著提升。此外,YOWO是首个且唯一一个在AVA数据集上实现具有竞争力性能的单阶段架构。我们已将代码及预训练模型公开发布,供学术界和工业界使用。

代码仓库

nuschandra/Tennis-Stroke-Detection
pytorch
GitHub 中提及
Stepphonwol/my_yowo
pytorch
GitHub 中提及
wei-tim/YOWO
官方
pytorch
GitHub 中提及
BoChenUIUC/YOWO
pytorch
GitHub 中提及
zwtu/YOWO-Paddle
paddle
GitHub 中提及

基准测试

基准方法指标
action-detection-on-j-hmdbYOWO
Frame-mAP 0.5: 74.4
Video-mAP 0.2: 87.8
Video-mAP 0.5: 85.7
action-detection-on-j-hmdbYOWO + LFB
Frame-mAP 0.5: 75.7
Video-mAP 0.2: 88.3
Video-mAP 0.5: 85.9
action-detection-on-ucf101-24YOWO
Frame-mAP 0.5: 80.4
Video-mAP 0.1: 82.5
Video-mAP 0.2: 75.8
Video-mAP 0.5: 48.8
action-detection-on-ucf101-24YOWO + LFB
Frame-mAP 0.5: 87.3
Video-mAP 0.1: 86.1
Video-mAP 0.2: 78.6
Video-mAP 0.5: 53.1
action-recognition-in-videos-on-ava-v2-1YOWO+LFB*
mAP (Val): 19.2
action-recognition-in-videos-on-ava-v2-2YOWO+LFB*
mAP (Val): 20.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
你只需观看一次:一种用于实时时空动作定位的统一CNN架构 | 论文 | HyperAI超神经