3 个月前

重新思考空洞卷积在实时语义分割中的应用

重新思考空洞卷积在实时语义分割中的应用

摘要

视场(field-of-view)是设计语义分割模型时一个关键指标。为获得较大的视场,以往的方法通常通过快速下采样特征图分辨率来实现,一般采用平均池化或步长为2的卷积操作。本文提出一种不同的方法:在整个主干网络(backbone)中使用大膨胀率的空洞卷积(dilated convolutions),从而可通过调节膨胀率灵活控制网络的视场,且实验表明该方法在性能上可与现有方法相媲美。为了有效利用空洞卷积,我们推导出一个简单的膨胀率上界,以确保卷积核权重之间不出现间隙(即避免漏采样)。在此基础上,我们设计了一种受SE-ResNeXt启发的模块结构,该结构包含两个并行的$3\times3$卷积层,分别采用不同的膨胀率,以更好地保留局部细节信息。由于手动为每个模块调整膨胀率较为困难,我们进一步提出一种可微分的神经架构搜索方法,利用梯度下降自动优化各层的膨胀率。此外,我们还提出一种轻量级解码器结构,能够比常见方法更有效地恢复局部空间信息。为验证所提方法的有效性,我们构建的模型RegSeg在实时语义分割任务中取得了具有竞争力的性能表现。在使用T4 GPU并结合混合精度计算的条件下,RegSeg在Cityscapes测试集上达到37 FPS的推理速度,mIOU为78.3;在CamVid测试集上达到112 FPS的推理速度,mIOU为80.9,且均未使用ImageNet预训练。

代码仓库

RolandGao/RegSeg
官方
pytorch
GitHub 中提及
Deci-AI/super-gradients
pytorch
GitHub 中提及

基准测试

基准方法指标
real-time-semantic-segmentation-on-camvidRegSeg(Cityscapes-Pretrained)
Frame (fps): 70
Time (ms): 14
mIoU: 80.9
real-time-semantic-segmentation-on-cityscapesRegSeg (no ImageNet pretraining)
Frame (fps): 30
Time (ms): 33
mIoU: 78.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考空洞卷积在实时语义分割中的应用 | 论文 | HyperAI超神经