McKell WoodlandAustin CasteloMais Al TaieJessica Albuquerque Marques SilvaMohamed EltaherFrank MohnAlexander ShiehSuprateek KunduJoshua P. YungAnkit B. PatelKristy K. Brock

摘要
弗雷歇 inception 距离(Fréchet Inception Distance, FID)是一种广泛用于评估生成图像质量的指标。该方法依赖于基于 ImageNet 训练的特征提取器,因此其在医学影像领域的适用性尚不明确。近年来,一种趋势是通过在医学影像数据上训练的特征提取器来适应 FID 以用于医学图像评估。然而,本研究对此做法提出质疑,结果表明,基于 ImageNet 训练的特征提取器在一致性与人类判断的契合度方面,优于其对应的 RadImageNet 提取器。我们评估了十六个 StyleGAN2 生成网络,在四种医学影像模态及四种数据增强技术下,采用十一组基于 ImageNet 或 RadImageNet 训练的特征提取器计算弗雷歇距离(Fréchet Distance, FD)。通过视觉图灵测试(visual Turing test)与人类主观判断进行对比分析发现,基于 ImageNet 的提取器所生成的排名与人类判断高度一致,其中基于 ImageNet 训练的 SwAV 提取器所计算的 FD 与专家评价之间表现出显著相关性。相比之下,基于 RadImageNet 的提取器所生成的排名则波动较大,且与人类判断不一致。本研究结果挑战了当前普遍存在的假设,提供了新的实证证据:在医学影像上训练的特征提取器并不必然提升 FID 的有效性,甚至可能削弱其可靠性。本研究代码已公开,可访问 https://github.com/mckellwoodland/fid-med-eval。
代码仓库
mckellwoodland/fid-med-eval
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| medical-image-generation-on-acdc | StyleGAN2 with DiffAugment | FID: 21.42 |
| medical-image-generation-on-chestx-ray14 | StyleGAN2 with DiffAugment | FID: 3.07 |
| medical-image-generation-on-sliver07 | StyleGAN2 with DiffAugment | FID: 4.62 |