6 个月前

摘要

当前最先进的语义分割方法通常采用高分辨率输入以获得优异性能，但这带来了巨大的计算开销，限制了其在资源受限设备上的应用。本文提出一种简单且灵活的双流框架——双超分辨率学习（Dual Super-Resolution Learning, DSRL），能够在不引入额外计算成本的前提下有效提升分割精度。具体而言，该方法由三部分构成：语义分割超分辨率（Semantic Segmentation Super-Resolution, SSSR）、单图像超分辨率（Single Image Super-Resolution, SISR）以及特征亲和力（Feature Affinity, FA）模块。该框架能够在使用低分辨率输入的同时保持高分辨率特征表示，同时显著降低模型的计算复杂度。此外，该方法具有良好的可迁移性，可轻松推广至其他任务，例如人体姿态估计。这一简洁而高效的方法生成了强大的特征表示，并在语义分割与人体姿态估计任务上均展现出优异性能。具体而言，在CityScapes数据集上进行语义分割时，DSRL在保持相近浮点运算量（FLOPs）的情况下，实现了超过2%的mIoU提升；在仅使用70% FLOPs的情况下，仍能保持原有性能水平。在人体姿态估计任务中，DSRL在相同FLOPs下可提升超过2%的mAP，而在仅需30% FLOPs的情况下仍能维持原有mAP水平。相关代码与模型已开源，地址为：https://github.com/wanglixilinx/DSRL。

源 PDF 查看代码