4 个月前

OCNet:面向对象上下文网络用于场景解析

OCNet:面向对象上下文网络用于场景解析

摘要

在本文中,我们提出了一种新的上下文聚合方案,称为\emph{对象上下文}(object context),该方案着重于增强对象信息的作用。鉴于每个像素的类别继承自其所属的对象,我们将图像中每个像素的对象上下文定义为与其属于同一类别的所有像素的集合。我们使用一个二值关系矩阵来表示所有像素之间的关系,其中值为1表示所选的两个像素属于同一类别,而值为0则表示不属于同一类别。为了替代二值关系矩阵,我们建议使用一个密集关系矩阵。密集关系矩阵能够突出对象信息的贡献,因为其关系得分在对象像素上往往比其他像素更高。考虑到密集关系矩阵估计需要与输入大小呈二次增长的计算开销和内存消耗,我们提出了一种高效的交错稀疏自注意力机制来通过两个稀疏关系矩阵的组合建模任意两个像素之间的密集关系。为了捕捉更丰富的上下文信息,我们进一步将提出的交错稀疏自注意力机制与传统的多尺度上下文方案相结合,包括金字塔池化(pyramid pooling)\citep{zhao2017pyramid}和空洞空间金字塔池化(atrous spatial pyramid pooling)\citep{chen2018deeplab}。我们在五个具有挑战性的基准数据集上进行了实验验证,展示了我们的方法的优势和竞争力,这些数据集包括:Cityscapes、ADE20K、LIP、PASCAL-Context 和 COCO-Stuff。

代码仓库

PkuRainBow/OCNet
官方
pytorch
GitHub 中提及
openseg-group/OCNet.pytorch
pytorch
GitHub 中提及
PkuRainBow/OCNet.pytorch
官方
pytorch
GitHub 中提及
tarujg/domain-adapt
pytorch
GitHub 中提及
openseg-group/openseg.pytorch
pytorch
GitHub 中提及
vishwesh5/Paper-a-day
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-cityscapesOCNet
Mean IoU (class): 81.7%
semantic-segmentation-on-trans10kOCNet
GFLOPs: 43.31
mIoU: 66.31%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OCNet:面向对象上下文网络用于场景解析 | 论文 | HyperAI超神经