6 个月前

摘要

与自然场景相比，航拍场景通常以鸟瞰视角呈现地表上密集分布的多种物体，其描述往往需要更丰富的判别性特征以及更精细的局部语义信息。然而，在应用于场景分类任务时，大多数现有的卷积神经网络（ConvNets）倾向于捕捉图像的全局语义，难以避免低层与中层特征的丢失，尤其在模型深度增加时更为显著。为应对上述挑战，本文提出一种面向航拍场景分类的多实例密集连接卷积网络（Multiple-Instance Dense-Connected ConvNet, MIDC-Net）。该方法将航拍场景分类建模为多实例学习（Multiple-Instance Learning, MIL）问题，从而进一步挖掘局部语义信息。所提出的分类模型包含三个核心组件：实例级分类器、可训练的多实例池化层以及袋级分类层。在实例级分类器中，我们设计了一种简化的密集连接结构，以有效保留来自不同网络层次的特征；提取出的卷积特征随后被转换为实例级特征向量。接着，我们提出一种基于注意力机制的可训练多实例池化方法，能够突出与场景类别相关的关键局部语义，并直接输出袋级（bag-level）分类概率。最后，通过袋级分类层，整个多实例学习框架在袋标签的直接监督下进行训练。在三个广泛使用的航拍场景基准数据集上的实验结果表明，所提出的方法在显著优于众多前沿方法的同时，仅需更少的参数量，展现出优异的性能与效率。

查看代码