4 个月前

利用时间上下文进行视频动作识别

利用时间上下文进行视频动作识别

摘要

我们提出了一种新颖的视频理解框架,称为时间上下文化的CLIP(TC-CLIP),该框架通过在视频的空间-时间域内进行全局交互来利用关键的时间信息。具体而言,我们引入了时间上下文化(Temporal Contextualization, TC)机制,这是一种逐层注入时间信息的方法,其主要步骤包括:1)从每一帧中提取核心信息;2)跨帧连接相关信息以生成上下文标记;3)利用这些上下文标记进行特征编码。此外,视频条件提示(Video-conditional Prompting, VP)模块处理上下文标记,生成文本模态中的信息提示。大量的实验验证了我们的模型在零样本、少样本、基础到新类以及全监督动作识别任务中的有效性。针对TC和VP的消融研究也支持了我们的设计选择。我们的项目页面及源代码可在https://github.com/naver-ai/tc-clip 获取。

代码仓库

naver-ai/dawin
pytorch
GitHub 中提及
naver-ai/tc-clip
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-action-recognition-on-hmdb51TC-CLIP
Top-1 Accuracy: 56.0
zero-shot-action-recognition-on-kineticsTC-CLIP
Top-1 Accuracy: 78.1
Top-5 Accuracy: 95.7
zero-shot-action-recognition-on-ucf101TC-CLIP
Top-1 Accuracy: 85.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用时间上下文进行视频动作识别 | 论文 | HyperAI超神经