
摘要
时空动作定位需要在所设计的网络架构中融合两种信息源:(1)来自前序帧的时间信息,以及(2)来自关键帧的空间信息。当前最先进的方法通常采用独立的网络分别提取这两类信息,并通过额外的融合机制实现检测结果的整合。在本工作中,我们提出YOWO,一种用于视频流中实时时空动作定位的统一卷积神经网络(CNN)架构。YOWO是一种单阶段架构,包含两个并行分支,能够同时提取时间与空间信息,并在一次前向推理中直接从视频片段预测出边界框和动作概率。由于整个架构高度统一,可实现端到端的联合优化。YOWO具有极高的运行效率:在输入16帧视频片段时达到34帧/秒的处理速度,在输入8帧片段时更高达62帧/秒,目前已成为时空动作定位任务中速度最快的先进架构。尤为突出的是,YOWO在J-HMDB-21和UCF101-24数据集上的表现显著优于此前的最先进方法,分别取得了约3%和12%的显著提升。此外,YOWO是首个且唯一一个在AVA数据集上实现具有竞争力性能的单阶段架构。我们已将代码及预训练模型公开发布,供学术界和工业界使用。
代码仓库
nuschandra/Tennis-Stroke-Detection
pytorch
GitHub 中提及
Stepphonwol/my_yowo
pytorch
GitHub 中提及
wei-tim/YOWO
官方
pytorch
GitHub 中提及
BoChenUIUC/YOWO
pytorch
GitHub 中提及
zwtu/YOWO-Paddle
paddle
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-j-hmdb | YOWO | Frame-mAP 0.5: 74.4 Video-mAP 0.2: 87.8 Video-mAP 0.5: 85.7 |
| action-detection-on-j-hmdb | YOWO + LFB | Frame-mAP 0.5: 75.7 Video-mAP 0.2: 88.3 Video-mAP 0.5: 85.9 |
| action-detection-on-ucf101-24 | YOWO | Frame-mAP 0.5: 80.4 Video-mAP 0.1: 82.5 Video-mAP 0.2: 75.8 Video-mAP 0.5: 48.8 |
| action-detection-on-ucf101-24 | YOWO + LFB | Frame-mAP 0.5: 87.3 Video-mAP 0.1: 86.1 Video-mAP 0.2: 78.6 Video-mAP 0.5: 53.1 |
| action-recognition-in-videos-on-ava-v2-1 | YOWO+LFB* | mAP (Val): 19.2 |
| action-recognition-in-videos-on-ava-v2-2 | YOWO+LFB* | mAP (Val): 20.2 |