6 个月前

计算机视觉

多任务学习

计算机视觉

Rohit Mohan Abhinav Valada

摘要

理解自主机器人所处的环境场景，是其高效运行的关键。此类场景理解需要识别交通参与者实例，并掌握场景的通用语义信息，而这些目标可通过全景分割（panoptic segmentation）任务有效实现。本文提出一种高效的全景分割架构——EfficientPS，该架构采用共享主干网络，能够高效地编码并融合具有丰富语义信息的多尺度特征。我们设计了一种新型语义头，可协同聚合细粒度特征与上下文特征；同时引入一种改进的Mask R-CNN变体作为实例头。此外，我们提出一种新颖的全景融合模块，能够一致地整合EfficientPS架构中两个分支的输出logits，从而生成最终的全景分割结果。为进一步推动研究发展，我们还构建了KITTI全景分割数据集，该数据集为广泛使用的KITTI基准提供了全景标注。在Cityscapes、KITTI、Mapillary Vistas以及Indian Driving Dataset四个主流基准上的大量实验表明，所提出的EfficientPS架构在所有四个数据集上均持续刷新当前最优性能，同时成为迄今为止效率最高、运行速度最快的全景分割架构。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多任务学习

计算机视觉

Rohit Mohan Abhinav Valada

摘要

理解自主机器人所处的环境场景，是其高效运行的关键。此类场景理解需要识别交通参与者实例，并掌握场景的通用语义信息，而这些目标可通过全景分割（panoptic segmentation）任务有效实现。本文提出一种高效的全景分割架构——EfficientPS，该架构采用共享主干网络，能够高效地编码并融合具有丰富语义信息的多尺度特征。我们设计了一种新型语义头，可协同聚合细粒度特征与上下文特征；同时引入一种改进的Mask R-CNN变体作为实例头。此外，我们提出一种新颖的全景融合模块，能够一致地整合EfficientPS架构中两个分支的输出logits，从而生成最终的全景分割结果。为进一步推动研究发展，我们还构建了KITTI全景分割数据集，该数据集为广泛使用的KITTI基准提供了全景标注。在Cityscapes、KITTI、Mapillary Vistas以及Indian Driving Dataset四个主流基准上的大量实验表明，所提出的EfficientPS架构在所有四个数据集上均持续刷新当前最优性能，同时成为迄今为止效率最高、运行速度最快的全景分割架构。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供