4 个月前

AVA:时空局部化的原子视觉行为视频数据集

AVA:时空局部化的原子视觉行为视频数据集

摘要

本文介绍了一个时空局部化的原子视觉动作(Atomic Visual Actions, AVA)视频数据集。AVA 数据集在430个15分钟的视频片段中密集标注了80种原子视觉动作,这些动作在空间和时间上进行了定位,从而产生了158万个动作标签,其中多人同时出现多个标签的情况非常普遍。该数据集的关键特征包括:(1) 定义为原子视觉动作而非复合动作;(2) 精确的时空标注,每个人可能有多个标注;(3) 在15分钟的视频片段中对这些原子动作进行详尽标注;(4) 在连续的时间段内将人物进行时间上的关联;(5) 利用电影来收集多样化的动作表示。这与现有的时空动作识别数据集不同,后者通常在短小的视频片段中提供稀疏的复合动作标注。我们将公开发布该数据集。AVA 数据集以其真实的场景和复杂的动作暴露了动作识别的内在难度。为了对此进行基准测试,我们提出了一种新的动作定位方法,该方法基于当前最先进的技术,并在JHMDB和UCF101-24类别上展示了更好的性能。尽管在现有数据集上设定了新的最先进水平,但在AVA上的整体结果仅为15.6%的平均精度均值(mAP),突显了开发新方法以提高视频理解能力的必要性。

基准测试

基准方法指标
action-detection-on-j-hmdbFaster-RCNN + two-stream I3D conv
Frame-mAP 0.5: 73.3
Video-mAP 0.5: 78.6
action-detection-on-ucf101-24Faster-RCNN + two-stream I3D conv
Frame-mAP 0.5: 76.3
Video-mAP 0.5: 59.9
action-recognition-in-videos-on-ava-v21S3D-G w/ ResNet RPN (Kinetics-400 pretraining(
mAP (Val): 22.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AVA:时空局部化的原子视觉行为视频数据集 | 论文 | HyperAI超神经