摘要

本文并非旨在对注意力机制本身进行创新，而是聚焦于解决点云处理领域中精度与效率之间的固有权衡问题，充分借助规模带来的优势。受近期三维大规模表征学习进展的启发，我们认识到，模型性能在大规模条件下更多地取决于规模本身，而非复杂的结构设计。因此，我们提出 Point Transformer V3（PTv3），在模型设计上优先考虑简洁性与高效性，对那些在大规模扩展后对整体性能影响较小的机制（例如，用基于特定模式组织的点云高效串行邻域映射替代精确的KNN邻域搜索）进行简化。这一设计理念使得模型具备显著的可扩展性：感受野从16个点扩展至1024个点，同时保持高效运行——相较于前代模型PTv2，处理速度提升3倍，内存效率提高10倍。PTv3在超过20项下游任务上取得了当前最优性能，涵盖室内与室外等多种场景。通过引入多数据集联合训练进一步优化，PTv3的性能再上新台阶。

源 PDF