
摘要
现有的基于图像的活动理解方法主要采用直接映射策略,即从图像直接映射到活动概念,但由于图像与活动语义之间存在巨大鸿沟,此类方法容易遭遇性能瓶颈。针对这一问题,我们提出了一条新路径:首先推断人体各部位的状态,再基于部位级别的语义信息推理出完整活动。人体部位状态(Human Body Part States, PaSta)是一类细粒度的动作语义标记,例如〈手,抓取,某物〉,这些标记可组合构成各类活动,有助于我们逐步构建人类活动知识引擎。为充分挖掘PaSta的潜力,我们构建了一个大规模知识库PaStaNet,其中包含超过700万条PaSta标注数据。同时,我们提出了两种相应的模型:其一,设计了名为Activity2Vec的模型,用于提取PaSta特征,旨在获得适用于多种活动的通用表征;其二,提出基于PaSta的推理方法以实现活动识别。得益于PaStaNet的支持,我们的方法在多种任务上取得了显著提升:在监督学习下,于HICO数据集的完整集和零样本集上分别达到6.4和13.9的mAP;在迁移学习场景下,于V-COCO和基于图像的AVA数据集上分别获得3.2和4.2的mAP。代码与数据集已公开,访问地址为:http://hake-mvig.cn/。
代码仓库
DirtyHarryLYL/HAKE-Action-Torch
官方
pytorch
GitHub 中提及
DirtyHarryLYL/HAKE
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-detection-on-hico | PaStaNet | mAP: 22.65 |
| human-object-interaction-detection-on-hico-1 | PaStaNet | mAP: 46.3 |
| human-object-interaction-detection-on-v-coco | PaStaNet | AP(S1): 51.0 AP(S2): 57.5 |