
摘要
视频中的物体通常表现出连续平滑的运动。我们从三个方面利用这种连续平滑的运动特性:1) 通过将物体运动作为额外的监督源来提高准确性,这可以通过从静态关键帧预测物体位置来实现。2) 通过仅在所有帧的一小部分上进行昂贵的特征计算来提高效率。由于相邻视频帧往往具有冗余性,我们只需为一个静态关键帧计算特征,并预测后续帧中的物体位置。3) 减少标注成本,即仅对关键帧进行标注,并利用关键帧之间的平滑伪运动(smooth pseudo-motion)。我们在四个数据集上展示了计算效率、标注效率以及相对于现有最佳方法改进的平均精度:ImageNet VID、EPIC KITCHENS-55、YouTube-BoundingBoxes 和 Waymo Open 数据集。我们的源代码可在 https://github.com/L-KID/Videoobject-detection-by-location-anticipation 获取。
代码仓库
l-kid/video-object-detection-by-location-anticipation
官方
pytorch
GitHub 中提及
Elstuhn/Video-object-detection-by-location-anticipation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-object-detection-on-epic-kitchens-55 | Ours (Faster RCNN) | mAP@.5: 41.7 |
| video-object-detection-on-imagenet-vid | Ours (Faster RCNN + R101) | MAP : 87.2 |
| video-object-detection-on-imagenet-vid | Ours (Def. DETR + SwinB) | MAP : 91.3 |
| video-object-detection-on-imagenet-vid | Ours (Def. DETR + R101) | MAP : 87.9 |
| video-object-detection-on-waymo-open-dataset | - | AP: 59.28 |
| video-object-detection-on-yt-bb | - | mAP: 59.8 |