
摘要
基于不变性和生成的方法在三维自监督表示学习(3D SSRL)中表现出显著的性能。然而,前者依赖于手工设计的数据增强方法,这些方法引入了并非普遍适用于所有下游任务的偏差;后者则无差别地重建被遮掩的区域,导致无关细节被保存在表示空间中。为了解决上述问题,我们提出了一种新颖的非生成式3D SSRL框架——3D-JEPA。具体而言,我们设计了一种多块采样策略,该策略能够生成一个信息量充足的情境块和多个具有代表性的目标块。我们还引入了情境感知解码器以增强目标块的重建效果。具体实现上,情境信息被连续输入到解码器中,从而促使编码器学习语义建模而非简单记忆与目标块相关的情境信息。总体而言,3D-JEPA通过编码器和情境感知解码器架构从情境块预测目标块的表示。不同数据集上的多种下游任务验证了3D-JEPA的有效性和高效性,在较少的预训练轮次下实现了更高的准确性,例如,在PB_T50_RS数据集上仅经过150轮预训练即可达到88.65%的准确率。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-part-segmentation-on-shapenet-part | 3D-JEPA | Class Average IoU: 86.41 Instance Average IoU: 84.93 |
| 3d-point-cloud-classification-on-modelnet40 | 3D-JEPA | Overall Accuracy: 94.0 |
| 3d-point-cloud-classification-on-scanobjectnn | 3D-JEPA | OBJ-BG (OA): 93.63 OBJ-ONLY (OA): 94.49 Overall Accuracy: 89.52 |
| few-shot-3d-point-cloud-classification-on-1 | 3D-JEPA | Overall Accuracy: 97.6 Standard Deviation: 2.0 |
| few-shot-3d-point-cloud-classification-on-2 | 3D-JEPA | Overall Accuracy: 98.8 Standard Deviation: 0.4 |
| few-shot-3d-point-cloud-classification-on-3 | 3D-JEPA | Overall Accuracy: 94.3 Standard Deviation: 3.6 |
| few-shot-3d-point-cloud-classification-on-4 | 3D-JEPA | Overall Accuracy: 96.3 Standard Deviation: 2.4 |