
摘要
大规模数据集在计算机视觉领域发挥着至关重要的作用。然而,当前的数据集在标注过程中缺乏对样本的差异化处理,采取的是盲目标注的方式,导致数据收集效率低下且难以扩展。如何实现大规模数据集的主动构建,成为一个亟待解决的关键问题。尽管先进的主动学习算法可能为此提供解决方案,但我们通过实验发现,在现实标注场景中,当分布外(out-of-distribution)数据大量存在时,现有主动学习方法表现乏力。为此,本文提出了一种面向现实数据标注场景的新型主动学习框架。基于该框架,我们构建了一个高质量的视觉数据集——Bamboo,其包含6900万条图像分类标注(覆盖11.9万个类别)以及2800万条目标检测边界框标注(覆盖809个类别)。所有类别均基于整合多个知识库的分层分类体系进行组织。Bamboo的分类标注规模是ImageNet22K的四倍,检测标注规模是Object365的三倍。与ImageNet22K和Object365相比,基于Bamboo预训练的模型在多个下游任务中均展现出更优性能,分类任务提升6.2%,检测任务提升2.1%。我们相信,本文提出的主动学习框架与Bamboo数据集,将成为未来视觉研究的重要基础。
代码仓库
davidzhangyuanhan/bamboo
官方
pytorch
GitHub 中提及
zhangyuanhan-ai/bamboo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-caltech | Bamboo (ViT-B/16) | Accuracy: 94.8 |
| fine-grained-image-classification-on-oxford-1 | Bamboo (ViT-B/16) | Accuracy: 95.1% |
| fine-grained-image-classification-on-stanford | Bamboo (ViT-B/16) | Accuracy: 93.9% |
| fine-grained-image-classification-on-sun397 | Bamboo (ViT-B/16) | Accuracy: 79.5 |
| image-classification-on-cifar-10 | Bamboo (ViT-B/16) | Percentage correct: 98.2 |
| image-classification-on-cifar-100 | Bamboo (ViT-B/16) | Percentage correct: 90.2 |
| image-classification-on-dtd | Bamboo (ViT-B/16) | Accuracy: 81.9 |
| image-classification-on-flowers-102 | Bamboo (ViT-B/16) | Accuracy: 99.7 |
| image-classification-on-food-101-1 | Bamboo (ViTB/16) | Accuracy (%): 92.9 |
| image-classification-on-objectnet | Vit B/16 (Bamboo) | Top-1 Accuracy: 53.9 |
| image-classification-on-objectnet | ResNet-50 (Bamboo) | Top-1 Accuracy: 38.8 |
| image-classification-on-omnibenchmark | Bamboo-R50 | Average Top-1 Accuracy: 45.4 |