4 个月前

PolyMaX:使用Mask Transformer进行通用密集预测

PolyMaX:使用Mask Transformer进行通用密集预测

摘要

密集预测任务,如语义分割、深度估计和表面法线预测,可以很容易地表述为每个像素的分类(离散输出)或回归(连续输出)。由于全卷积网络的广泛使用,这种每个像素的预测范式一直很流行。然而,在最近的分割任务前沿,随着变换器架构(尤其是掩码变换器)的出现,社区正见证从每个像素预测向聚类预测的范式转变,即直接为一个掩码而不是单个像素预测标签。尽管发生了这一转变,基于每个像素预测范式的方法在其他需要连续输出的密集预测任务中仍占据主导地位,例如深度估计和表面法线预测。受到DORN和AdaBins在深度估计中通过离散化连续输出空间取得成功的启发,我们提出将基于聚类预测的方法推广到一般的密集预测任务中。这使得我们可以将密集预测任务统一到掩码变换器框架下。值得注意的是,由此产生的模型PolyMaX在NYUD-v2数据集的三个基准测试中表现出色,达到了当前最佳水平。我们希望我们的简单而有效的设计能够激发更多关于利用掩码变换器进行更多密集预测任务的研究。代码和模型将会公开发布。

代码仓库

基准测试

基准方法指标
monocular-depth-estimation-on-nyu-depth-v2PolyMaX(ConvNeXt-L)
Delta u003c 1.25: 0.969
Delta u003c 1.25^2: 0.9958
Delta u003c 1.25^3: 0.999
RMSE: 0.25
absolute relative error: 0.067
log 10: 0.029
semantic-segmentation-on-nyu-depth-v2PolyMaX(ConvNeXt-L)
Mean IoU: 58.08%
surface-normals-estimation-on-nyu-depth-v2-1PolyMaX(ConvNeXt-L)
% u003c 11.25: 65.66
% u003c 22.5: 82.28
% u003c 30: 87.83
Mean Angle Error: 13.09
RMSE: 20.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PolyMaX:使用Mask Transformer进行通用密集预测 | 论文 | HyperAI超神经