7 个月前

计算机视觉

Chunhui Gu* Chen Sun* David A. Ross* Carl Vondrick* Caroline Pantofaru* Yeqing Li* Sudheendra Vijayanarasimhan* George Toderici* Susanna Ricco* Rahul Sukthankar* Cordelia Schmid† Jitendra Malik‡

摘要

本文介绍了一个时空局部化的原子视觉动作（Atomic Visual Actions, AVA）视频数据集。AVA 数据集在430个15分钟的视频片段中密集标注了80种原子视觉动作，这些动作在空间和时间上进行了定位，从而产生了158万个动作标签，其中多人同时出现多个标签的情况非常普遍。该数据集的关键特征包括：(1) 定义为原子视觉动作而非复合动作；(2) 精确的时空标注，每个人可能有多个标注；(3) 在15分钟的视频片段中对这些原子动作进行详尽标注；(4) 在连续的时间段内将人物进行时间上的关联；(5) 利用电影来收集多样化的动作表示。这与现有的时空动作识别数据集不同，后者通常在短小的视频片段中提供稀疏的复合动作标注。我们将公开发布该数据集。AVA 数据集以其真实的场景和复杂的动作暴露了动作识别的内在难度。为了对此进行基准测试，我们提出了一种新的动作定位方法，该方法基于当前最先进的技术，并在JHMDB和UCF101-24类别上展示了更好的性能。尽管在现有数据集上设定了新的最先进水平，但在AVA上的整体结果仅为15.6%的平均精度均值（mAP），突显了开发新方法以提高视频理解能力的必要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Chunhui Gu* Chen Sun* David A. Ross* Carl Vondrick* Caroline Pantofaru* Yeqing Li* Sudheendra Vijayanarasimhan* George Toderici* Susanna Ricco* Rahul Sukthankar* Cordelia Schmid† Jitendra Malik‡

摘要

本文介绍了一个时空局部化的原子视觉动作（Atomic Visual Actions, AVA）视频数据集。AVA 数据集在430个15分钟的视频片段中密集标注了80种原子视觉动作，这些动作在空间和时间上进行了定位，从而产生了158万个动作标签，其中多人同时出现多个标签的情况非常普遍。该数据集的关键特征包括：(1) 定义为原子视觉动作而非复合动作；(2) 精确的时空标注，每个人可能有多个标注；(3) 在15分钟的视频片段中对这些原子动作进行详尽标注；(4) 在连续的时间段内将人物进行时间上的关联；(5) 利用电影来收集多样化的动作表示。这与现有的时空动作识别数据集不同，后者通常在短小的视频片段中提供稀疏的复合动作标注。我们将公开发布该数据集。AVA 数据集以其真实的场景和复杂的动作暴露了动作识别的内在难度。为了对此进行基准测试，我们提出了一种新的动作定位方法，该方法基于当前最先进的技术，并在JHMDB和UCF101-24类别上展示了更好的性能。尽管在现有数据集上设定了新的最先进水平，但在AVA上的整体结果仅为15.6%的平均精度均值（mAP），突显了开发新方法以提高视频理解能力的必要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供