
摘要
我们提出了一种新颖的策略,用于从航空影像中学习提取语义上有意义的特征。与传统的手动标注航空影像不同,我们提出通过自动预测从同位置地面影像中提取的(含噪声的)语义特征来实现这一目标。我们的网络架构以航空影像作为输入,利用卷积神经网络提取特征,随后应用一种自适应变换,将这些特征映射至地面视角。我们采用端到端的学习方法,最小化直接从地面图像中提取的语义分割结果与仅基于航空图像预测得到的语义分割之间的差异。实验表明,仅通过该策略训练得到的模型,在无需额外训练的情况下,已具备对航空影像进行粗略语义标注的能力。此外,我们证明了通过微调该模型,可实现比两种基准初始化策略更精确的语义分割效果。我们还将该网络应用于估计地面图像的地理定位与地理朝向任务。最后,我们展示了如何利用从航空影像中提取的特征,生成一个合理的地面级全景图像。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-view-image-to-image-translation-on-4 | CrossNet | SSIM: 0.4147 |