6 个月前

摘要

时空动作定位需要在所设计的网络架构中融合两种信息源：（1）来自前序帧的时间信息，以及（2）来自关键帧的空间信息。当前最先进的方法通常采用独立的网络分别提取这两类信息，并通过额外的融合机制实现检测结果的整合。在本工作中，我们提出YOWO，一种用于视频流中实时时空动作定位的统一卷积神经网络（CNN）架构。YOWO是一种单阶段架构，包含两个并行分支，能够同时提取时间与空间信息，并在一次前向推理中直接从视频片段预测出边界框和动作概率。由于整个架构高度统一，可实现端到端的联合优化。YOWO具有极高的运行效率：在输入16帧视频片段时达到34帧/秒的处理速度，在输入8帧片段时更高达62帧/秒，目前已成为时空动作定位任务中速度最快的先进架构。尤为突出的是，YOWO在J-HMDB-21和UCF101-24数据集上的表现显著优于此前的最先进方法，分别取得了约3%和12%的显著提升。此外，YOWO是首个且唯一一个在AVA数据集上实现具有竞争力性能的单阶段架构。我们已将代码及预训练模型公开发布，供学术界和工业界使用。

源 PDF