6 个月前

摘要

不同身体部位和物体在尺寸上的尺度差异，是视觉识别任务中的一项挑战性问题。现有方法通常为每个任务设计专用的主干网络，或采用神经架构搜索（Neural Architecture Search, NAS）来应对这一挑战。然而，这些方法在架构设计或搜索空间上均存在显著限制。为解决上述问题，本文提出 ScaleNAS，一种用于探索尺度感知表征的一次性学习方法。ScaleNAS 通过搜索多尺度特征聚合机制，实现对多个任务的并行优化。该方法采用灵活的搜索空间，支持任意数量的网络模块及跨尺度特征融合。为应对灵活空间带来的高昂搜索成本，ScaleNAS 采用基于分组采样与进化搜索驱动的一次性学习策略，构建多尺度超网络（multi-scale supernet）。在无需额外微调的情况下，ScaleNet 可直接部署于各类视觉识别任务，并展现出卓越性能。本文利用 ScaleNAS 构建了两种高分辨率模型：面向人体姿态估计的 ScaleNet-P 与面向语义分割的 ScaleNet-S。在两项任务中，ScaleNet-P 与 ScaleNet-S 均显著优于现有的手工设计方法及基于 NAS 的方法。在自下而上的姿态估计任务中，ScaleNet-P 的表现超越了当前最先进的 HigherHRNet。其中，ScaleNet-P4 在 COCO test-dev 数据集上达到了 71.6% 的 AP（Average Precision），刷新了该任务的最新纪录，实现了新的最先进水平。

源 PDF