3 个月前

迈向全球生物多样性评估的一步:BIOSCAN-1M 昆虫数据集

迈向全球生物多样性评估的一步:BIOSCAN-1M 昆虫数据集

摘要

为系统性地记录昆虫生物多样性,我们提出一个全新的大规模手工标注昆虫图像数据集——BIOSCAN-Insect数据集。该数据集中的每一项记录均由专家进行分类学标注,并附有相关的遗传信息,包括原始核苷酸条形码序列及对应的条形码索引编号,这些遗传数据可作为物种分类的分子依据。本文介绍了一个经过精心筛选的百万级图像数据集,其主要用途是训练计算机视觉模型,以实现基于图像的分类学评估;然而,该数据集还具备若干引人注目的特性,对更广泛的机器学习研究社区亦具有重要研究价值。由于数据集本身具有生物学本质特征,其类别分布呈现出显著的长尾不平衡现象。此外,分类标签采用层级分类体系,在较低分类层级上呈现出高度细粒度的分类挑战。该数据集的发布不仅有望激发机器学习领域对生物多样性研究的兴趣,而且推动基于图像的分类学识别技术的发展,也将助力BIOSCAN研究的终极目标——构建全球生物多样性的全面调查基础。本文介绍了该数据集的构建过程,并通过实现与分析一个基准分类模型,探讨了相关分类任务的可行性与挑战。

代码仓库

zahrag/BIOSCAN-1M
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
classification-on-bioscan-1m-insect-datasetBIOSCAN_1M_order_classifier
Macro F1: 92.65
classification-on-bioscan-1m-insect-datasetBIOSCAN_1M_family_classifier
Macro F1: 91.45

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
迈向全球生物多样性评估的一步:BIOSCAN-1M 昆虫数据集 | 论文 | HyperAI超神经