3 个月前

ScaleNAS:面向视觉识别的尺度感知表征的一次性学习

ScaleNAS:面向视觉识别的尺度感知表征的一次性学习

摘要

不同身体部位和物体在尺寸上的尺度差异,是视觉识别任务中的一项挑战性问题。现有方法通常为每个任务设计专用的主干网络,或采用神经架构搜索(Neural Architecture Search, NAS)来应对这一挑战。然而,这些方法在架构设计或搜索空间上均存在显著限制。为解决上述问题,本文提出 ScaleNAS,一种用于探索尺度感知表征的一次性学习方法。ScaleNAS 通过搜索多尺度特征聚合机制,实现对多个任务的并行优化。该方法采用灵活的搜索空间,支持任意数量的网络模块及跨尺度特征融合。为应对灵活空间带来的高昂搜索成本,ScaleNAS 采用基于分组采样与进化搜索驱动的一次性学习策略,构建多尺度超网络(multi-scale supernet)。在无需额外微调的情况下,ScaleNet 可直接部署于各类视觉识别任务,并展现出卓越性能。本文利用 ScaleNAS 构建了两种高分辨率模型:面向人体姿态估计的 ScaleNet-P 与面向语义分割的 ScaleNet-S。在两项任务中,ScaleNet-P 与 ScaleNet-S 均显著优于现有的手工设计方法及基于 NAS 的方法。在自下而上的姿态估计任务中,ScaleNet-P 的表现超越了当前最先进的 HigherHRNet。其中,ScaleNet-P4 在 COCO test-dev 数据集上达到了 71.6% 的 AP(Average Precision),刷新了该任务的最新纪录,实现了新的最先进水平。

基准测试

基准方法指标
multi-person-pose-estimation-on-coco-test-devHigherHRNet (ScaleNet_P4)
AP: 71.6
AP50: 90.3
AP75: 78.2
APL: 77.2
APM: 67.5
AR: 76.0
AR50: 92.3
multi-person-pose-estimation-on-crowdposeHigherHRNet (ScaleNet_P4)
mAP @0.5:0.95: 71.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ScaleNAS:面向视觉识别的尺度感知表征的一次性学习 | 论文 | HyperAI超神经