6 个月前

摘要

现有的动作管（action tubelet）检测方法通常依赖于启发式设计的锚框（anchor）及其位置设定，这可能导致计算开销较大，并在精确定位方面表现欠佳。本文提出了一种概念简洁、计算高效且更具精度的动作管检测框架，称为MovingCenter检测器（MOC-Detector）。该方法将一个动作实例建模为一组运动点的轨迹，充分利用运动信息以简化并辅助动作管检测。MOC-Detector由三个关键分支构成：(1) 中心分支（Center Branch）：用于检测动作实例的中心位置并进行动作分类；(2) 运动分支（Movement Branch）：估计相邻帧之间的运动信息，从而构建运动点的轨迹；(3) 框分支（Box Branch）：在每个预测的中心点上直接回归边界框的尺寸，以确定空间范围。这三个分支协同工作，生成初步的管状检测结果，再通过匹配策略进一步连接，形成完整的视频级动作管（video-level tubes）。在JHMDB和UCF101-24数据集上的实验表明，MOC-Detector在帧级mAP（frame-mAP）和视频级mAP（video-mAP）两个指标上均优于现有最先进方法。尤其在较高视频IoU阈值下，性能差距更为显著，表明该方法在实现高精度动作检测方面具有突出优势。相关代码已开源，地址为：https://github.com/MCG-NJU/MOC-Detector。

源 PDF