
摘要
密集预测任务,如语义分割、深度估计和表面法线预测,可以很容易地表述为每个像素的分类(离散输出)或回归(连续输出)。由于全卷积网络的广泛使用,这种每个像素的预测范式一直很流行。然而,在最近的分割任务前沿,随着变换器架构(尤其是掩码变换器)的出现,社区正见证从每个像素预测向聚类预测的范式转变,即直接为一个掩码而不是单个像素预测标签。尽管发生了这一转变,基于每个像素预测范式的方法在其他需要连续输出的密集预测任务中仍占据主导地位,例如深度估计和表面法线预测。受到DORN和AdaBins在深度估计中通过离散化连续输出空间取得成功的启发,我们提出将基于聚类预测的方法推广到一般的密集预测任务中。这使得我们可以将密集预测任务统一到掩码变换器框架下。值得注意的是,由此产生的模型PolyMaX在NYUD-v2数据集的三个基准测试中表现出色,达到了当前最佳水平。我们希望我们的简单而有效的设计能够激发更多关于利用掩码变换器进行更多密集预测任务的研究。代码和模型将会公开发布。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-nyu-depth-v2 | PolyMaX(ConvNeXt-L) | Delta u003c 1.25: 0.969 Delta u003c 1.25^2: 0.9958 Delta u003c 1.25^3: 0.999 RMSE: 0.25 absolute relative error: 0.067 log 10: 0.029 |
| semantic-segmentation-on-nyu-depth-v2 | PolyMaX(ConvNeXt-L) | Mean IoU: 58.08% |
| surface-normals-estimation-on-nyu-depth-v2-1 | PolyMaX(ConvNeXt-L) | % u003c 11.25: 65.66 % u003c 22.5: 82.28 % u003c 30: 87.83 Mean Angle Error: 13.09 RMSE: 20.4 |