
摘要
完全理解复杂的高分辨率卫星或航空影像场景通常需要在广泛的上下文中进行空间推理。人类的对象识别系统能够在长距离相关上下文中理解场景中的对象。例如,如果一个人观察到一幅显示被树冠分割的道路部分的航空影像,他们不太可能得出树木实际上将道路分割成不连续片段的结论,而是认为附近的树冠遮挡了道路。然而,目前对于现代机器学习模型在长距离上下文理解方面的研究还十分有限。在这项工作中,我们提出了一套用于评估地理空间机器学习模型空间长距离上下文理解能力的道路分割基准数据集——切萨皮克道路空间上下文(RSC)数据集,并展示了常用的语义分割模型在这一任务上的失败情况。例如,我们发现一个训练用于从背景中分割道路的U-Net模型在未被遮挡的道路部分上达到了84%的召回率,但在被树冠覆盖的道路部分上召回率仅为63.5%,尽管该模型是以相同的方式对这两种情况进行建模的。我们进一步分析了随着决策所需的相关上下文(本例中为未被遮挡的道路)距离变化时,模型性能的变化情况。为了鼓励未来在这一方向的研究,我们发布了重现实验的代码以及包含影像和掩膜的数据集——https://github.com/isaaccorley/ChesapeakeRSC。
代码仓库
isaaccorley/chesapeakersc
官方
pytorch
GitHub 中提及
isaaccorley/resize-is-all-you-need
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| road-segmentation-on-chesapeakersc | U-Net (ResNet-18) | DWR: 46.5 |
| road-segmentation-on-chesapeakersc | FCN | DWR: 10.7 |
| road-segmentation-on-chesapeakersc | U-Net (ResNet-50) | DWR: 45.7 |
| road-segmentation-on-chesapeakersc | DeepLabV3+ (ResNet-18) | DWR: 46.1 |