6 个月前

计算机视觉

计算机视觉

Zahra Gharaee ZeMing Gong Nicholas Pellegrino Iuliia Zarubiieva Joakim Bruslund Haurum Scott C. Lowe Jaclyn T.A. McKeown Chris C.Y. Ho Joschka McLeod Yi-Yun C Wei

摘要

为系统性地记录昆虫生物多样性，我们提出一个全新的大规模手工标注昆虫图像数据集——BIOSCAN-Insect数据集。该数据集中的每一项记录均由专家进行分类学标注，并附有相关的遗传信息，包括原始核苷酸条形码序列及对应的条形码索引编号，这些遗传数据可作为物种分类的分子依据。本文介绍了一个经过精心筛选的百万级图像数据集，其主要用途是训练计算机视觉模型，以实现基于图像的分类学评估；然而，该数据集还具备若干引人注目的特性，对更广泛的机器学习研究社区亦具有重要研究价值。由于数据集本身具有生物学本质特征，其类别分布呈现出显著的长尾不平衡现象。此外，分类标签采用层级分类体系，在较低分类层级上呈现出高度细粒度的分类挑战。该数据集的发布不仅有望激发机器学习领域对生物多样性研究的兴趣，而且推动基于图像的分类学识别技术的发展，也将助力BIOSCAN研究的终极目标——构建全球生物多样性的全面调查基础。本文介绍了该数据集的构建过程，并通过实现与分析一个基准分类模型，探讨了相关分类任务的可行性与挑战。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Zahra Gharaee ZeMing Gong Nicholas Pellegrino Iuliia Zarubiieva Joakim Bruslund Haurum Scott C. Lowe Jaclyn T.A. McKeown Chris C.Y. Ho Joschka McLeod Yi-Yun C Wei

摘要

为系统性地记录昆虫生物多样性，我们提出一个全新的大规模手工标注昆虫图像数据集——BIOSCAN-Insect数据集。该数据集中的每一项记录均由专家进行分类学标注，并附有相关的遗传信息，包括原始核苷酸条形码序列及对应的条形码索引编号，这些遗传数据可作为物种分类的分子依据。本文介绍了一个经过精心筛选的百万级图像数据集，其主要用途是训练计算机视觉模型，以实现基于图像的分类学评估；然而，该数据集还具备若干引人注目的特性，对更广泛的机器学习研究社区亦具有重要研究价值。由于数据集本身具有生物学本质特征，其类别分布呈现出显著的长尾不平衡现象。此外，分类标签采用层级分类体系，在较低分类层级上呈现出高度细粒度的分类挑战。该数据集的发布不仅有望激发机器学习领域对生物多样性研究的兴趣，而且推动基于图像的分类学识别技术的发展，也将助力BIOSCAN研究的终极目标——构建全球生物多样性的全面调查基础。本文介绍了该数据集的构建过程，并通过实现与分析一个基准分类模型，探讨了相关分类任务的可行性与挑战。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

迈向全球生物多样性评估的一步：BIOSCAN-1M 昆虫数据集 | 论文 | HyperAI超神经