3 个月前

PaStaNet:迈向人类活动知识引擎

PaStaNet:迈向人类活动知识引擎

摘要

现有的基于图像的活动理解方法主要采用直接映射策略,即从图像直接映射到活动概念,但由于图像与活动语义之间存在巨大鸿沟,此类方法容易遭遇性能瓶颈。针对这一问题,我们提出了一条新路径:首先推断人体各部位的状态,再基于部位级别的语义信息推理出完整活动。人体部位状态(Human Body Part States, PaSta)是一类细粒度的动作语义标记,例如〈手,抓取,某物〉,这些标记可组合构成各类活动,有助于我们逐步构建人类活动知识引擎。为充分挖掘PaSta的潜力,我们构建了一个大规模知识库PaStaNet,其中包含超过700万条PaSta标注数据。同时,我们提出了两种相应的模型:其一,设计了名为Activity2Vec的模型,用于提取PaSta特征,旨在获得适用于多种活动的通用表征;其二,提出基于PaSta的推理方法以实现活动识别。得益于PaStaNet的支持,我们的方法在多种任务上取得了显著提升:在监督学习下,于HICO数据集的完整集和零样本集上分别达到6.4和13.9的mAP;在迁移学习场景下,于V-COCO和基于图像的AVA数据集上分别获得3.2和4.2的mAP。代码与数据集已公开,访问地址为:http://hake-mvig.cn/。

代码仓库

DirtyHarryLYL/HAKE-Action-Torch
官方
pytorch
GitHub 中提及
DirtyHarryLYL/HAKE
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PaStaNet:迈向人类活动知识引擎 | 论文 | HyperAI超神经