
摘要
尽管物体分析在过去取得了成功,但在长尾数据分布的情况下检测和分割大量物体类别仍然是一个具有挑战性的问题,并且研究较少。对于大型词汇表分类器而言,获得噪声输出(logits)的概率要高得多,这很容易导致错误识别。在本文中,我们利用物体类别之间的关系先验知识,将细粒度类别聚类为较粗的父类别,并构建了一个分类树,该分类树负责通过其父类别将物体实例解析为细粒度类别。在分类树中,由于父类别的节点数量显著减少,其输出(logits)的噪声较小,可以用来抑制存在于细粒度类别节点中的错误/噪声输出(logits)。由于构建父类别的方法不是唯一的,我们进一步构建了多棵树以形成一个分类森林,每棵树都为其细粒度分类贡献投票。为了缓解由长尾现象引起的不平衡学习问题,我们提出了一种简单而有效的重采样方法——NMS重采样(NMS Resampling),以重新平衡数据分布。我们的方法称为Forest R-CNN,可以作为一个即插即用模块应用于大多数物体识别模型中,用于识别超过1000个类别。我们在大型词汇表数据集LVIS上进行了广泛的实验。与Mask R-CNN基线相比,Forest R-CNN在罕见类别和总体类别上的平均精度(AP)分别提高了11.5%和3.9%。此外,我们在LVIS数据集上达到了最先进的结果。代码可在https://github.com/JialianW/Forest_RCNN获取。
代码仓库
JialianW/Forest_RCNN
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-object-detection-on-lvis-v1-0-val | Forest R-CNN | AP: 23.2 APc: 22.7 APf: 27.7 APr: 14.2 |