
摘要
在许多计算机视觉任务中,我们期望输出对输入图像的旋转具有特定的行为。如果这种关系被显式编码,而不是被视为其他变化之一,问题的复杂度将会降低,从而减少所需模型的规模。本文提出了一种新的卷积神经网络(CNN)架构——旋转等变向量场网络(RotEqNet),该架构编码了旋转等变性、不变性和协变性。每个卷积滤波器在多个方向上应用,并返回一个向量场,表示每个空间位置上得分最高的方向的大小和角度。我们开发了一种基于此表示的修改后的卷积算子,以获得深层架构。我们在几个需要对输入图像旋转做出不同响应的问题上测试了RotEqNet:图像分类、生物医学图像分割、方向估计和补丁匹配。在所有情况下,我们展示了RotEqNet在参数数量方面提供了极其紧凑的模型,并且其结果与规模大得多的网络相当。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| breast-tumour-classification-on-pcam | VF-CNN (C8) | AUC: 0.881 |
| breast-tumour-classification-on-pcam | VF-CNN (C12) | AUC: 0.898 |
| breast-tumour-classification-on-pcam | VF-CNN (C4) | AUC: 0.871 |
| colorectal-gland-segmentation-on-crag | VF-CNN (C8) | Dice: 0.758 F1-score: 0.745 Hausdorff Distance (mm): 287.5 |
| colorectal-gland-segmentation-on-crag | VF-CNN (C12) | Dice: 0.782 F1-score: 0.776 Hausdorff Distance (mm): 251.9 |
| colorectal-gland-segmentation-on-crag | VF-CNN (C4) | Dice: 0.721 F1-score: 0.711 Hausdorff Distance (mm): 318.9 |
| multi-tissue-nucleus-segmentation-on-kumar | VF-CNN (C4) | Dice: 0.800 Hausdorff Distance (mm): 49.9 |
| multi-tissue-nucleus-segmentation-on-kumar | VF-CNN (C12) | Dice: 0.808 Hausdorff Distance (mm): 50.7 |
| multi-tissue-nucleus-segmentation-on-kumar | VF-CNN (C12) | Dice: 0.813 Hausdorff Distance (mm): 51.4 |