
摘要
每一刻都对动作识别至关重要。为了全面理解视频中的人类活动,需要根据发生的动作对每一帧进行标注,并在视频序列上密集地放置多个标签。为了研究这一问题,我们扩展了现有的THUMOS数据集,并引入了MultiTHUMOS,这是一个针对不受限制的互联网视频的密集标签新数据集。建模多个密集标签可以从类内和类间的时序关系中受益。我们定义了一种新的长短期记忆(LSTM)深度网络变体,通过多个输入和输出连接来建模这些时序关系。实验结果表明,该模型提高了动作标注的准确性,并进一步支持了从结构化检索到动作预测等一系列更深层次的理解任务。
代码仓库
lauradhatt/Interesting-Reads
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-multi-thumos | Two-stream | mAP: 27.6 |
| action-detection-on-multi-thumos | Two-stream + LSTM | mAP: 28.1 |