
摘要
利用人工智能通过病理图像分析实现精准医疗和决策支持系统的应用,有望彻底改变癌症的诊断和治疗。这些应用将依赖于模型捕捉病理图像中多样模式的能力。为应对这一挑战,我们提出了Virchow,一种计算病理学的基础模型。借助DINOv2算法的自监督学习能力,Virchow是一个拥有6.32亿参数的视觉变换器模型,训练数据集包含来自多种组织和样本类型的150万张苏木精和伊红染色的全切片图像,这比以往的研究使用的数据量高出几个数量级。Virchow模型能够在17种不同癌症类型中实现总体样本水平0.949的AUC(曲线下面积),同时在7种罕见癌症类型中达到0.937的AUC。该模型在内部和外部图像块级别基准测试以及切片级别生物标志物预测任务中均达到了当前最佳水平。性能的提升突显了在大规模病理图像数据集上进行训练的重要性,表明扩大数据规模和网络架构可以提高许多高影响力计算病理学应用的准确性,尤其是在可用训练数据有限的情况下。
代码仓库
Paige-AI/paige-ml-sdk
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| breast-tumour-classification-on-pcam | Virchow | Accuracy: 0.933 |