4 个月前

基于视觉和语言知识蒸馏的开放词汇对象检测

基于视觉和语言知识蒸馏的开放词汇对象检测

摘要

我们的目标是推进开放词汇对象检测技术的发展,该技术能够检测由任意文本输入描述的对象。主要挑战在于训练数据的可用性。进一步扩大现有对象检测数据集中类别的数量成本高昂。为了解决这一挑战,我们提出了ViLD(Vision and Language knowledge Distillation),一种通过视觉和语言知识蒸馏的训练方法。我们的方法将预训练的开放词汇图像分类模型(教师模型)的知识蒸馏到一个两阶段检测器(学生模型)中。具体而言,我们使用教师模型对类别文本和对象提议的图像区域进行编码。然后,我们训练一个学生检测器,使其检测框的区域嵌入与教师模型推断出的文本和图像嵌入对齐。我们在LVIS数据集上进行了基准测试,将所有罕见类别作为未在训练过程中见过的新类别。ViLD使用ResNet-50骨干网络获得了16.1的mask AP$r$,甚至超过了监督方法3.8个点。当使用更强的教师模型ALIGN进行训练时,ViLD达到了26.3的AP$_r$。该模型可以直接迁移到其他数据集而无需微调,在PASCAL VOC上实现了72.2的AP${50}$,在COCO上实现了36.6的AP,在Objects365上实现了11.8的AP。在COCO数据集上,ViLD在新类别AP方面比之前的最先进方法高出4.8,在总体AP方面高出11.4。代码和演示已开源至https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild。

基准测试

基准方法指标
open-vocabulary-object-detection-on-1ViLD
mask AP50: 18.2
open-vocabulary-object-detection-on-lvis-v1-0ViLD (R50-FPN)
AP novel-LVIS base training: 16.1
AP novel-Unrestricted open-vocabulary training: 16.3
open-vocabulary-object-detection-on-lvis-v1-0ViLD-ensemble (R50-FPN)
AP novel-LVIS base training: 16.6
AP novel-Unrestricted open-vocabulary training: 16.7
open-vocabulary-object-detection-on-lvis-v1-0ViLD-ensemble (R152-FPN)
AP novel-LVIS base training: 18.7
AP novel-Unrestricted open-vocabulary training: 19.8
open-vocabulary-object-detection-on-lvis-v1-0ViLD-ensemble w/ ALIGN (Eb7-FPN)
AP novel-LVIS base training: 26.3
AP novel-Unrestricted open-vocabulary training: 27.0
open-vocabulary-object-detection-on-mscocoViLD
AP 0.5: 27.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视觉和语言知识蒸馏的开放词汇对象检测 | 论文 | HyperAI超神经