
摘要
我们提出Voxel Transformer(VoTr),一种新颖且高效的基于体素(voxel)的Transformer主干网络,用于点云数据的三维目标检测。传统基于体素的三维检测器所采用的三维卷积主干网络,由于感受野受限,难以有效捕捉大范围上下文信息,而这一特性对目标识别与定位至关重要。为解决该问题,本文引入基于Transformer的架构,通过自注意力机制实现体素之间的长程依赖关系建模。考虑到非空体素天然具有稀疏但数量庞大的特点,直接在体素上应用标准Transformer存在挑战。为此,我们提出稀疏体素模块(sparse voxel module)与子流形体素模块(submanifold voxel module),能够高效处理空体素与非空体素的位置。为进一步扩大注意力感受野,同时保持与卷积方法相当的计算开销,我们在上述两个模块中分别设计了两种多头注意力机制:局部注意力(Local Attention)与扩张注意力(Dilated Attention)。此外,我们还提出快速体素查询(Fast Voxel Query)方法,以加速多头注意力中的查询过程。VoTr由一系列稀疏体素模块与子流形体素模块构成,可广泛应用于大多数基于体素的三维检测器中。在KITTI数据集与Waymo Open数据集上的实验结果表明,所提出的VoTr在保持计算效率的同时,相较于传统卷积基线模型实现了稳定且一致的性能提升。
代码仓库
PointsCoder/VOTR
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-waymo-vehicle | VoTr-TSD | L1 mAP: 74.95 |