3 个月前

CEM500K – 面向深度学习的大规模异构未标注细胞电子显微图像数据集

CEM500K – 面向深度学习的大规模异构未标注细胞电子显微图像数据集

摘要

细胞电子显微镜(EM)数据集的自动化分割仍是当前面临的重大挑战。依赖感兴趣区域(ROI)标注的监督式深度学习(DL)方法所训练出的模型,难以泛化至无关数据集。而新兴的无监督深度学习算法虽无需标注,但通常需要相关预训练图像;然而,当前可用的EM数据集进行预训练计算成本高昂,且在面对未见的生物情境时表现价值有限,原因在于这些数据集规模庞大且具有高度同质性。为解决这一问题,我们提出了CEM500K——一个轻量级(25 GB)、包含50万张独特细胞EM图像的高质量数据集,其图像源自超过100个相互独立的成像项目,涵盖近600个三维(3D)和约10,000个二维(2D)图像。我们证明,基于CEM500K预训练的模型能够学习到具有生物学意义且对有意义图像增强具有鲁棒性的特征表示。尤为重要的是,我们在六个公开可用及一个新构建的基准分割任务上评估了这些预训练模型的迁移学习性能,并在每一项任务上均取得了当前最优(state-of-the-art)结果。我们已公开发布CEM500K数据集、预训练模型及图像筛选与整理流程,以支持电子显微镜领域研究者开展模型构建与数据集扩展工作。

基准测试

基准方法指标
electron-microscopy-image-segmentation-on-1CEM500K-moco
Average IOU: 0.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CEM500K – 面向深度学习的大规模异构未标注细胞电子显微图像数据集 | 论文 | HyperAI超神经