4 个月前

基于丰富语义和粗略位置的长尾目标检测学习

基于丰富语义和粗略位置的长尾目标检测学习

摘要

长尾目标检测(LTOD)旨在解决现实世界数据集中极端的数据不平衡问题,其中许多尾部类别的实例非常稀少。一种常见的策略是利用带有图像级标签的额外数据,但由于以下两个原因,这种方法的效果有限:(1) 语义模糊——图像级标签仅捕捉到图像中的显著部分,忽略了其余丰富的语义信息;(2) 位置敏感性——标签高度依赖于原始图像的位置和裁剪区域,这些可能在随机裁剪等数据变换后发生变化。为了解决这些问题,我们提出了一种简单但有效的方法——RichSem,该方法能够在没有精确边界框的情况下从粗略位置学习丰富的语义信息。RichSem 利用了图像中的丰富语义,并将其作为训练检测器的附加软监督。具体而言,我们在检测器中添加了一个语义分支来学习这些软语义,并增强长尾目标检测的特征表示。该语义分支仅用于训练阶段,在推理时会被移除。RichSem 在不同骨干网络和检测器下均能实现对 LVIS 数据集整体类别和罕见类别的持续改进。我们的方法无需复杂的训练和测试流程即可达到最先进的性能。此外,通过额外的实验,我们还展示了该方法在其他长尾数据集上的有效性。代码已发布在 \url{https://github.com/MengLcool/RichSem}。

代码仓库

MengLcool/RichSem
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-lvis-v1-0-valRichSem (Focal-H + ImageNet as weakly-supervised extra data)
box AP: 61.2
box APr: 61.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于丰富语义和粗略位置的长尾目标检测学习 | 论文 | HyperAI超神经