
摘要
我们研究了在连续、未剪辑的视频流中进行活动检测的问题。这是一个具有挑战性的任务,需要提取有意义的空间-时间特征以捕捉活动,并准确地定位每个活动的起始和结束时间。为此,我们提出了一种新的模型——区域卷积三维网络(Region Convolutional 3D Network, R-C3D),该模型首先使用三维全卷积网络对视频流进行编码,然后生成包含活动的候选时间区域,最后将选定的区域分类为具体的活动。由于提案和分类管道之间共享卷积特征,计算量得以减少。整个模型通过联合优化定位和分类损失进行端到端训练。R-C3D 在单个 Titan X Maxwell GPU 上的处理速度达到每秒 569 帧,比现有方法更快,并在 THUMOS'14 数据集上取得了最先进的结果。此外,我们通过在 ActivityNet 和 Charades 数据集上评估我们的方法,进一步证明了我们的模型是一个通用的活动检测框架,不依赖于特定数据集属性的假设。我们的代码可在 http://ai.bu.edu/r-c3d/ 获取。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-charades | R-C3D | mAP: 12.4 |
| action-recognition-in-videos-on-thumos14-1 | Single-stream R-C3D (one-way buffer) | mAP@0.1: 51.6 mAP@0.2: 49.2 mAP@0.3: 42.8 mAP@0.4: 33.4 mAP@0.5: 27.0 |
| action-recognition-in-videos-on-thumos14-1 | Single-stream R-C3D (two-way buffer) | mAP@0.1: 54.5 mAP@0.2: 51.5 mAP@0.3: 44.8 mAP@0.4: 35.6 mAP@0.5: 28.9 |
| temporal-action-localization-on-thumos14 | R-C3D | mAP IOU@0.1: 54.5 mAP IOU@0.2: 51.5 mAP IOU@0.3: 44.8 mAP IOU@0.4: 35.6 mAP IOU@0.5: 28.9 |