
摘要
本文重点关注视频中识别人类活动的时间方面,这是一个长期以来被低估的重要视觉线索。我们重新审视了传统上对活动的定义,并将其限定为复杂动作(Complex Action):一系列具有较弱时间模式的一次性动作,这些动作共同服务于特定目的。相关研究通常使用固定内核大小的空间-时间3D卷积,这种方法过于僵化,难以捕捉复杂动作在时间范围上的多样性,且对于长距离时间建模来说太短。相比之下,我们采用了多尺度时间卷积,并降低了3D卷积的复杂度。由此产生了Timeception卷积层,该层能够推理长达数分钟的时间模式,比现有最佳相关工作的时间跨度长8倍。因此,Timeception在识别Charades、Breakfast Actions和MultiTHUMOS数据集中的人类活动方面取得了令人印象深刻的准确性。此外,我们还证明了Timeception能够学习长距离时间依赖关系,并容忍复杂动作的时间范围变化。
代码仓库
CMU-CREATE-Lab/deep-smoke-machine
pytorch
GitHub 中提及
QUVA-Lab/timeception
pytorch
GitHub 中提及
noureldien/timeception
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-charades | Timeception (I3D) | MAP: 37.2 |
| action-classification-on-charades | Timeception (R2D) | MAP: 31.6 |
| action-classification-on-charades | Timeception (R3D) | MAP: 41.1 |
| long-video-activity-recognition-on-breakfast | Timeception (I3D-K400-Pretrain-feature) | mAP: 61.82 |
| video-classification-on-breakfast | Timeception | Accuracy (%): 71.3 |