6 个月前

摘要

近年来，三维点云分割取得了显著进展。现有大多数方法侧重于局部特征的聚合，但难以直接建模长程依赖关系。本文提出了一种新型的分层Transformer（Stratified Transformer），能够有效捕捉长程上下文信息，并展现出优异的泛化能力与高性能。具体而言，我们首先提出一种新颖的关键点采样策略：针对每个查询点，以分层方式密集采样其邻近点作为关键点，同时稀疏采样远距离点作为关键点，从而在保持较低计算开销的前提下显著扩大模型的有效感受野，实现对长程上下文的高效建模。此外，为应对不规则点云分布带来的挑战，我们引入了首层点嵌入（first-layer point embedding）机制，用于聚合局部信息，有助于模型更快收敛并提升性能。同时，我们采用上下文感知的相对位置编码，以自适应地捕捉空间位置信息。最后，为解决窗口内点数不固定的问题，我们设计了一种内存高效的实现方式。大量实验结果表明，所提方法在S3DIS、ScanNetv2和ShapeNetPart等多个基准数据集上均表现出卓越的性能与优势。代码已开源，地址为：https://github.com/dvlab-research/Stratified-Transformer。

源 PDF