
摘要
基于卷积神经网络(CNN)主干的生成对抗模型近年来已在众多医学图像合成任务中达到最先进水平。然而,CNN 旨在通过紧凑的局部滤波器进行局部处理,其固有的归纳偏置限制了对上下文特征的学习能力。为此,本文提出一种新型生成对抗医学图像合成方法——ResViT,该方法结合了视觉变换器(Vision Transformer)对上下文信息的敏感性、卷积算子的精确性以及对抗学习带来的真实感。ResViT 的生成器采用一个中心瓶颈结构,其中包含一种新型的聚合残差变换器(Aggregated Residual Transformer, ART)模块,该模块协同整合了残差卷积与变换器模块的优势。ART 模块中的残差连接有助于提升所捕捉表征的多样性,而通道压缩模块则有效提炼与任务相关的关键信息。为降低计算负担,ART 模块之间引入了权重共享策略。此外,本文提出一种统一的实现框架,避免了针对不同源-目标模态配置重复构建独立的合成模型。我们在多对比度 MRI 中缺失序列的生成以及从 MRI 生成 CT 图像等任务中进行了全面验证。实验结果表明,ResViT 在定性观察与定量指标上均显著优于现有的基于 CNN 和变换器的方法。
代码仓库
icon-lab/ResViT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-to-image-translation-on-brats | ResViT | PSNR: 26.90 |
| image-to-image-translation-on-ixi-dataset | pGAN | PSNR: 33.95 ± 1.67 |
| image-to-image-translation-on-ixi-dataset | pix2pix | - |
| image-to-image-translation-on-ixi-dataset | TransUNet | PSNR: 32.49 ± 1.74 |
| image-to-image-translation-on-ixi-dataset | SAGAN | PSNR: 33.71 ± 1.61 |
| image-to-image-translation-on-ixi-dataset | ResViT | PSNR: 35.71 ± 1.77 |
| image-to-image-translation-on-ixi-dataset | A-UNet | PSNR: 32.43 ± 1.74 |