
摘要
小样本目标检测由于现实世界数据固有的长尾分布问题而成为一个重要且持久的研究课题。其性能在很大程度上受到新类别数据稀缺的影响。然而,无论数据可用性如何,新类别与基础类别的语义关系始终存在。在这项工作中,我们研究了利用这种语义关系结合视觉信息,并将显式关系推理引入新目标检测的学习中。具体而言,我们通过从大量文本语料库中学习得到的语义嵌入来表示每个类别的概念。检测器被训练将对象的图像表示投影到这个嵌入空间中。此外,我们发现了直接使用原始嵌入与启发式知识图谱时存在的问题,并提出通过动态关系图来增强这些嵌入。因此,我们的小样本检测器(命名为SRR-FSD)对新对象样本数量的变化表现出鲁棒性和稳定性。实验结果表明,SRR-FSD在较高样本数下可以取得具有竞争力的结果,更重要的是,在较低的显式和隐式样本数下也能显著提升性能。移除预训练分类数据集中隐式样本的基准协议可以为未来的研究提供一个更为现实的设置。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-object-detection-on-ms-coco-10-shot | SSR-FSD | AP: 11.3 |
| few-shot-object-detection-on-ms-coco-30-shot | SSR-FSD | AP: 14.7 |