4 个月前

面向通用表示的未见动作识别

面向通用表示的未见动作识别

摘要

未见动作识别(UAR)旨在在没有训练样本的情况下识别新的动作类别。以往的方法主要关注数据集内部的已见/未见划分,而本文提出了一种利用大规模训练源实现通用表示(UR)的管道,该方法可以推广到更加现实的跨数据集未见动作识别(CD-UAR)场景。我们首先将UAR视为一个广义多实例学习(GMIL)问题,并通过分布核从大规模的ActivityNet数据集中发现“构建块”。通过在共享空间中保留关键的视觉和语义组件,实现了能够高效推广至新数据集的UR。预测的UR示例可以通过简单的语义适应进行改进,然后在测试过程中直接使用UR识别未见过的动作。无需进一步训练,广泛的实验表明该方法在UCF101和HMDB51基准上取得了显著的改进。

基准测试

基准方法指标
action-recognition-in-videos-on-activitynetCD-UAR
mAP: 53.8
action-recognition-in-videos-on-hmdb-51CD-UAR
Average accuracy of 3 splits: 51.8
action-recognition-in-videos-on-ucf101CD-UAR
3-fold Accuracy: 42.5
zero-shot-action-recognition-on-hmdb51UR
Top-1 Accuracy: 24.4
zero-shot-action-recognition-on-ucf101UR
Top-1 Accuracy: 17.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向通用表示的未见动作识别 | 论文 | HyperAI超神经