
摘要
本文并非旨在对注意力机制本身进行创新,而是聚焦于解决点云处理领域中精度与效率之间的固有权衡问题,充分借助规模带来的优势。受近期三维大规模表征学习进展的启发,我们认识到,模型性能在大规模条件下更多地取决于规模本身,而非复杂的结构设计。因此,我们提出 Point Transformer V3(PTv3),在模型设计上优先考虑简洁性与高效性,对那些在大规模扩展后对整体性能影响较小的机制(例如,用基于特定模式组织的点云高效串行邻域映射替代精确的KNN邻域搜索)进行简化。这一设计理念使得模型具备显著的可扩展性:感受野从16个点扩展至1024个点,同时保持高效运行——相较于前代模型PTv2,处理速度提升3倍,内存效率提高10倍。PTv3在超过20项下游任务上取得了当前最优性能,涵盖室内与室外等多种场景。通过引入多数据集联合训练进一步优化,PTv3的性能再上新台阶。
代码仓库
pointcept/pointtransformerv3
官方
pytorch
GitHub 中提及
Pointcept/Pointcept
官方
pytorch
GitHub 中提及
facebookresearch/SparseConvNet
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-scannet-1 | PTv3 | Top-1 IoU: 0.458 Top-3 IoU: 0.697 |
| 3d-semantic-segmentation-on-scannet-1 | PTv3 + PPT | Top-1 IoU: 0.464 Top-3 IoU: 0.710 |
| 3d-semantic-segmentation-on-scannet200 | PTv3 + PPT | test mIoU: 39.3 val mIoU: 36.0 |
| 3d-semantic-segmentation-on-semantickitti | PPT+PTv3 | test mIoU: 75.5% val mIoU: 72.3% |
| lidar-semantic-segmentation-on-nuscenes | PTv3 + PPT | test mIoU: 0.830 val mIoU: 0.812 |
| semantic-segmentation-on-s3dis | PTv3 + PPT | Mean IoU: 80.8 Number of params: 24.1M mAcc: 87.7 oAcc: 92.6 |
| semantic-segmentation-on-s3dis-area5 | PTv3 + PPT | mAcc: 80.1 mIoU: 74.7 oAcc: 92.0 |
| semantic-segmentation-on-scannet | PTv3 + PPT | test mIoU: 79.4 val mIoU: 78.6 |