4 个月前

AVA 的更好基线

AVA 的更好基线

摘要

我们介绍了一种在AVA数据集上进行动作定位的简单基线模型。该模型基于Faster R-CNN边界框检测框架,经过调整以处理纯时空特征——在我们的案例中,这些特征完全由在Kinetics数据集上预训练的I3D模型生成。此模型在AVA v2.1验证集上的平均精度(AP)达到21.9%,而原始AVA论文中使用的最佳RGB时空模型(该模型在Kinetics和ImageNet上进行了预训练)的平均精度为14.5%,公开可用的基线模型使用ResNet101图像特征提取器(该提取器仅在ImageNet上预训练)的平均精度为11.3%。我们的最终模型在验证集和测试集上的平均精度(mAP)分别为22.8%和21.9%,超过了CVPR 2018所有提交至AVA挑战赛的作品。

基准测试

基准方法指标
action-recognition-in-videos-on-ava-v21I3D w/ RPN + JFT (Kinetics-400 pretraining(
mAP (Val): 22.8
action-recognition-in-videos-on-ava-v21I3D w/ RPN (Kinetics-400 pretraining(
mAP (Val): 21.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AVA 的更好基线 | 论文 | HyperAI超神经