
摘要
本文介绍了一个时空局部化的原子视觉动作(Atomic Visual Actions, AVA)视频数据集。AVA 数据集在430个15分钟的视频片段中密集标注了80种原子视觉动作,这些动作在空间和时间上进行了定位,从而产生了158万个动作标签,其中多人同时出现多个标签的情况非常普遍。该数据集的关键特征包括:(1) 定义为原子视觉动作而非复合动作;(2) 精确的时空标注,每个人可能有多个标注;(3) 在15分钟的视频片段中对这些原子动作进行详尽标注;(4) 在连续的时间段内将人物进行时间上的关联;(5) 利用电影来收集多样化的动作表示。这与现有的时空动作识别数据集不同,后者通常在短小的视频片段中提供稀疏的复合动作标注。我们将公开发布该数据集。AVA 数据集以其真实的场景和复杂的动作暴露了动作识别的内在难度。为了对此进行基准测试,我们提出了一种新的动作定位方法,该方法基于当前最先进的技术,并在JHMDB和UCF101-24类别上展示了更好的性能。尽管在现有数据集上设定了新的最先进水平,但在AVA上的整体结果仅为15.6%的平均精度均值(mAP),突显了开发新方法以提高视频理解能力的必要性。
代码仓库
pwc-1/Paper-9/tree/main/3/AVA_cifar
mindspore
Mind23-2/MindCode-11
mindspore
tensorflow/models
tf
GitHub 中提及
open-mmlab/mmaction2
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-j-hmdb | Faster-RCNN + two-stream I3D conv | Frame-mAP 0.5: 73.3 Video-mAP 0.5: 78.6 |
| action-detection-on-ucf101-24 | Faster-RCNN + two-stream I3D conv | Frame-mAP 0.5: 76.3 Video-mAP 0.5: 59.9 |
| action-recognition-in-videos-on-ava-v21 | S3D-G w/ ResNet RPN (Kinetics-400 pretraining( | mAP (Val): 22.0 |