3 个月前

Point Transformer V3:更简单、更快速、更强大

Point Transformer V3:更简单、更快速、更强大

摘要

本文并非旨在对注意力机制本身进行创新,而是聚焦于解决点云处理领域中精度与效率之间的固有权衡问题,充分借助规模带来的优势。受近期三维大规模表征学习进展的启发,我们认识到,模型性能在大规模条件下更多地取决于规模本身,而非复杂的结构设计。因此,我们提出 Point Transformer V3(PTv3),在模型设计上优先考虑简洁性与高效性,对那些在大规模扩展后对整体性能影响较小的机制(例如,用基于特定模式组织的点云高效串行邻域映射替代精确的KNN邻域搜索)进行简化。这一设计理念使得模型具备显著的可扩展性:感受野从16个点扩展至1024个点,同时保持高效运行——相较于前代模型PTv2,处理速度提升3倍,内存效率提高10倍。PTv3在超过20项下游任务上取得了当前最优性能,涵盖室内与室外等多种场景。通过引入多数据集联合训练进一步优化,PTv3的性能再上新台阶。

代码仓库

pointcept/pointtransformerv3
官方
pytorch
GitHub 中提及
Pointcept/Pointcept
官方
pytorch
GitHub 中提及
facebookresearch/SparseConvNet
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-segmentation-on-scannet-1PTv3
Top-1 IoU: 0.458
Top-3 IoU: 0.697
3d-semantic-segmentation-on-scannet-1PTv3 + PPT
Top-1 IoU: 0.464
Top-3 IoU: 0.710
3d-semantic-segmentation-on-scannet200PTv3 + PPT
test mIoU: 39.3
val mIoU: 36.0
3d-semantic-segmentation-on-semantickittiPPT+PTv3
test mIoU: 75.5%
val mIoU: 72.3%
lidar-semantic-segmentation-on-nuscenesPTv3 + PPT
test mIoU: 0.830
val mIoU: 0.812
semantic-segmentation-on-s3disPTv3 + PPT
Mean IoU: 80.8
Number of params: 24.1M
mAcc: 87.7
oAcc: 92.6
semantic-segmentation-on-s3dis-area5PTv3 + PPT
mAcc: 80.1
mIoU: 74.7
oAcc: 92.0
semantic-segmentation-on-scannetPTv3 + PPT
test mIoU: 79.4
val mIoU: 78.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Point Transformer V3:更简单、更快速、更强大 | 论文 | HyperAI超神经