4 个月前

时间感知在复杂动作识别中的应用

时间感知在复杂动作识别中的应用

摘要

本文重点关注视频中识别人类活动的时间方面,这是一个长期以来被低估的重要视觉线索。我们重新审视了传统上对活动的定义,并将其限定为复杂动作(Complex Action):一系列具有较弱时间模式的一次性动作,这些动作共同服务于特定目的。相关研究通常使用固定内核大小的空间-时间3D卷积,这种方法过于僵化,难以捕捉复杂动作在时间范围上的多样性,且对于长距离时间建模来说太短。相比之下,我们采用了多尺度时间卷积,并降低了3D卷积的复杂度。由此产生了Timeception卷积层,该层能够推理长达数分钟的时间模式,比现有最佳相关工作的时间跨度长8倍。因此,Timeception在识别Charades、Breakfast Actions和MultiTHUMOS数据集中的人类活动方面取得了令人印象深刻的准确性。此外,我们还证明了Timeception能够学习长距离时间依赖关系,并容忍复杂动作的时间范围变化。

代码仓库

CMU-CREATE-Lab/deep-smoke-machine
pytorch
GitHub 中提及
QUVA-Lab/timeception
pytorch
GitHub 中提及
noureldien/timeception
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-charadesTimeception (I3D)
MAP: 37.2
action-classification-on-charadesTimeception (R2D)
MAP: 31.6
action-classification-on-charadesTimeception (R3D)
MAP: 41.1
long-video-activity-recognition-on-breakfastTimeception (I3D-K400-Pretrain-feature)
mAP: 61.82
video-classification-on-breakfastTimeception
Accuracy (%): 71.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
时间感知在复杂动作识别中的应用 | 论文 | HyperAI超神经