
摘要
现有的行为识别方法通常针对特定的行为者,这是由于不同行为者之间固有的拓扑和外观差异所致。这需要针对特定行为者的姿态估计(例如,人类与动物),导致模型设计复杂且维护成本高昂。此外,这些方法往往仅专注于学习视觉模态并进行单标签分类,而忽视了其他可用的信息源(例如,类别名称文本)以及多个动作的同时发生。为了解决这些问题,我们提出了一种新的方法——“行为者无关多模态多标签行为识别”,该方法为包括人类和动物在内的各种类型的行为者提供了一个统一的解决方案。我们进一步在基于变压器的目标检测框架(如DETR)中设计了一种新颖的多模态语义查询网络(MSQNet)模型,其特点是利用视觉和文本模态来更好地表示动作类别。消除特定行为者的模型设计是一个关键优势,因为它完全避免了对行为者姿态估计的需求。我们在五个公开可用的基准数据集上进行了广泛的实验,结果显示我们的MSQNet在人类和动物的单标签和多标签行为识别任务中始终优于先前的特定行为者方法,最高可提升50%。代码已发布在 https://github.com/mondalanindya/MSQNet。
代码仓库
mondalanindya/msqnet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-charades | MSQNet | MAP: 47.57 |
| action-recognition-in-videos-on-hmdb51 | MSQNet | Accuracy: 93.25 |
| action-recognition-on-animal-kingdom | MSQNet | mAP: 73.1 |
| action-recognition-on-hockey | MSQNet | Accuracy: 3.05 |
| action-recognition-on-thumos14 | MSQNet | Accuracy: 83.16 |
| zero-shot-action-recognition-on-charades-1 | MSQNet | mAP: 35.59 |
| zero-shot-action-recognition-on-hmdb51 | MSQNet | Accuracy: 69.43 |
| zero-shot-action-recognition-on-thumos-14 | MSQNet | Accuracy: 75.33 |