WangChangshuo ; WuMeiqing ; LamSiew-Kei ; NingXin ; YuShangshu ; WangRuiping ; LiWeijun ; SrikanthanThambipillai

摘要
尽管在点云理解的预训练方法方面取得了显著进展,但直接从不规则点云中捕捉复杂形状信息而不依赖外部数据仍然是一个艰巨的挑战。为了解决这一问题,我们提出了一种创新的基于全局感知和局部结构拟合的Transformer模型——GPSFormer,该模型能够以惊人的精度从点云中学习详细的形状信息。GPSFormer的核心组件是全局感知模块(Global Perception Module, GPM)和局部结构拟合卷积(Local Structure Fitting Convolution, LSFConv)。具体而言,GPM利用自适应变形图卷积(Adaptive Deformable Graph Convolution, ADGConv)来识别特征空间中相似特征之间的短程依赖关系,并通过多头注意力机制(Multi-Head Attention, MHA)来学习特征空间内所有位置之间的长程依赖关系,最终实现上下文表示的灵活学习。受泰勒级数的启发,我们设计了LSFConv,该卷积可以从显式编码的局部几何结构中同时学习低阶基本信息和高阶精细信息。将GPM和LSFConv作为基础组件进行整合,我们构建了GPSFormer这一前沿Transformer模型,能够有效捕捉点云的全局和局部结构。大量实验验证了GPSFormer在三个点云任务中的有效性:形状分类、部件分割和少样本学习。GPSFormer的代码可在以下网址获取:\url{https://github.com/changshuowang/GPSFormer}。
代码仓库
changshuowang/GPSFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-point-cloud-classification-on-scanobjectnn | GPSFormer-elite | Mean Accuracy: 92.51 Number of params: 0.68M Overall Accuracy: 93.30 |
| 3d-point-cloud-classification-on-scanobjectnn | GPSFormer | FLOPs: 0.7G Mean Accuracy: 93.8 Number of params: 2.36M Overall Accuracy: 95.4 |