摘要
现实世界中动作数量的持续增加,使得传统深度学习模型在识别未见动作方面面临巨大挑战。近年来,预训练的对比图像-文本视觉语言(I-VL)模型被成功应用于高效的“零样本”场景理解任务。将此类模型与Transformer结合以实现时序建模,在零样本动作识别(Zero-Shot Action Recognition, ZSAR)任务中取得了显著成效。然而,对物体及其动作环境的局部空间上下文进行建模的重要性尚未得到充分探索。为此,本文提出一种名为LoCATe-GAT的零样本动作识别框架,其核心由两种新颖组件构成:一种新型的局部上下文聚合时序Transformer(Local Context-Aggregating Temporal transformer, LoCATe)以及图注意力网络(Graph Attention Network, GAT)。具体而言,该框架以预训练I-VL模型提取的图像与文本编码作为输入。受观察启发——以物体为中心的上下文与环境上下文共同驱动动作之间的可区分性与功能相似性,LoCATe在时序建模过程中利用空洞卷积层捕捉多尺度的局部上下文信息。此外,所提出的GAT能够建模类别间的语义关系,并与LoCATe生成的视频嵌入表示形成强大协同效应。在四个广泛使用的基准数据集(UCF101、HMDB51、ActivityNet和Kinetics)上进行的大量实验表明,本方法取得了当前最优的性能表现。具体而言,在常规零样本设置下,我们在UCF101和HMDB51上分别实现了3.8%和4.8%的相对提升;在广义零样本设置(Generalized ZSAR)下,UCF101上的相对提升达到16.6%。对于大规模数据集如ActivityNet和Kinetics,我们的方法相较于此前最优方法分别取得了31.8%和27.9%的相对性能增益。此外,根据近期提出的“TruZe”评估协议,我们在UCF101和HMDB51上分别获得了25.3%和18.4%的显著提升。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-action-recognition-on-activitynet | LoCATe-GAT | Top-1 Accuracy: 73.8 |
| zero-shot-action-recognition-on-hmdb51 | LoCATe-GAT | Top-1 Accuracy: 50.7 |
| zero-shot-action-recognition-on-kinetics | LoCATe-GAT | Top-1 Accuracy: 58.7 |
| zero-shot-action-recognition-on-ucf101 | LoCATe-GAT | Top-1 Accuracy: 76.0 |