Zahra GharaeeZeMing GongNicholas PellegrinoIuliia ZarubiievaJoakim Bruslund HaurumScott C. LoweJaclyn T.A. McKeownChris C.Y. HoJoschka McLeodYi-Yun C WeiJireh AgdaSujeevan RatnasinghamDirk SteinkeAngel X. ChangGraham W. TaylorPaul Fieguth

摘要
为系统性地记录昆虫生物多样性,我们提出一个全新的大规模手工标注昆虫图像数据集——BIOSCAN-Insect数据集。该数据集中的每一项记录均由专家进行分类学标注,并附有相关的遗传信息,包括原始核苷酸条形码序列及对应的条形码索引编号,这些遗传数据可作为物种分类的分子依据。本文介绍了一个经过精心筛选的百万级图像数据集,其主要用途是训练计算机视觉模型,以实现基于图像的分类学评估;然而,该数据集还具备若干引人注目的特性,对更广泛的机器学习研究社区亦具有重要研究价值。由于数据集本身具有生物学本质特征,其类别分布呈现出显著的长尾不平衡现象。此外,分类标签采用层级分类体系,在较低分类层级上呈现出高度细粒度的分类挑战。该数据集的发布不仅有望激发机器学习领域对生物多样性研究的兴趣,而且推动基于图像的分类学识别技术的发展,也将助力BIOSCAN研究的终极目标——构建全球生物多样性的全面调查基础。本文介绍了该数据集的构建过程,并通过实现与分析一个基准分类模型,探讨了相关分类任务的可行性与挑战。
代码仓库
zahrag/BIOSCAN-1M
官方
pytorch
GitHub 中提及
bioscan-ml/dataset
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| classification-on-bioscan-1m-insect-dataset | BIOSCAN_1M_order_classifier | Macro F1: 92.65 |
| classification-on-bioscan-1m-insect-dataset | BIOSCAN_1M_family_classifier | Macro F1: 91.45 |