3 个月前

零样本动作识别中的精细复述

零样本动作识别中的精细复述

摘要

随着动作类别数量的持续增长,视频理解面临新的挑战,促使零样本动作识别(Zero-Shot Action Recognition, ZSAR)成为当前研究的热点方向。ZSAR任务的目标是在未见动作类别上实现识别,且无需任何训练样本,其核心思想是通过语义表示将已见动作与未见动作进行关联。然而,由于动作本身具有高度的复杂性与多样性,如何准确地进行动作类别的语义建模,并实现从已见数据到未见数据的知识迁移,仍是极具挑战性的问题。为此,本文提出一种受人类高效记忆策略——精细复述(Elaborative Rehearsal, ER)启发的ER增强型ZSAR模型。该记忆机制强调对新概念进行深入阐释,并将其与已有知识建立联系。具体而言,我们为每个动作类别构建一个精细描述(Elaborative Description, ED)句子,该描述在语义区分度上优于单一类别名称,同时在构建成本上远低于人工定义的属性标注。此外,除了直接对齐类别语义与视频内容外,我们进一步引入视频中的物体作为精细概念(Elaborative Concepts, EC),以增强视频的语义表达能力,并提升模型从已见动作向未见动作的泛化性能。所提出的ER增强型ZSAR模型在三个现有基准数据集上均取得了当前最优的识别性能。此外,我们针对Kinetics数据集提出了一个新的ZSAR评估协议,以克服现有基准在设置上的局限性。在这一更贴近真实场景的评估设置下,我们首次实现了ZSAR性能与少样本学习(few-shot learning)基线相当的结果,验证了该方法在实际应用中的潜力。相关代码及收集的ED语料库将开源发布于:https://github.com/DeLightCMU/ElaborativeRehearsal。

代码仓库

DeLightCMU/ElaborativeRehearsal
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-action-recognition-on-hmdb51ER-ZSAR
Top-1 Accuracy: 35.3
zero-shot-action-recognition-on-kineticsER-ZSAR (ST+Obj)
Top-1 Accuracy: 42.1
Top-5 Accuracy: 73.1
zero-shot-action-recognition-on-kineticsER-ZSAR (ST)
Top-1 Accuracy: 37.1
Top-5 Accuracy: 69.3
zero-shot-action-recognition-on-olympicsER-ZSAR
Top-1 Accuracy: 60.2
zero-shot-action-recognition-on-ucf101ER-ZSAR
Top-1 Accuracy: 51.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
零样本动作识别中的精细复述 | 论文 | HyperAI超神经