
摘要
在许多机器人技术和虚拟现实/增强现实(VR/AR)应用中,3D视频是现成的输入源(连续的深度图像序列或激光雷达扫描)。然而,这些3D视频通常以逐帧的方式通过2D卷积神经网络(ConvNets)或3D感知算法进行处理。在这项工作中,我们提出了一种4维卷积神经网络,用于时空感知,可以直接利用高维卷积处理此类3D视频。为此,我们采用了稀疏张量,并提出了广义稀疏卷积,该方法涵盖了所有离散卷积。为了实现广义稀疏卷积,我们创建了一个开源的自动微分库,为高维卷积神经网络提供了丰富的函数。我们使用该库构建了4D时空卷积神经网络,并在多个3D语义分割基准数据集以及为3D视频感知提出的4D数据集上对其进行了验证。为了克服4D空间中的挑战,我们提出了一种特殊的广义稀疏卷积——混合核(Hybrid Kernel),以及一种三边静止条件随机场(Trilateral-Stationary Conditional Random Field),后者在7维时空色度空间中强制执行时空一致性。实验结果表明,仅使用广义3D稀疏卷积的卷积神经网络可以大幅超越2D或2D-3D混合方法。此外,我们在3D视频上展示了4D时空卷积神经网络对噪声具有鲁棒性,在某些情况下优于3D卷积神经网络,并且比3D对应模型更快。
代码仓库
NVIDIA/MinkowskiEngine
pytorch
GitHub 中提及
shwoo93/minkowskiengine
pytorch
GitHub 中提及
buildingnet/buildingnet_dataset
pytorch
GitHub 中提及
ldkong1205/Robo3D
pytorch
GitHub 中提及
dkoh0207/lartpc_minkowski
pytorch
GitHub 中提及
StanfordVL/MinkowskiEngine
官方
pytorch
GitHub 中提及
Pointcept/Pointcept
pytorch
mit-han-lab/spvnas
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-scannet-1 | MinkowskiNet | Top-1 IoU: 0.292 Top-3 IoU: 0.531 |
| 3d-semantic-segmentation-on-scannet200 | MinkUNet | test mIoU: 25.3 val mIoU: 25.0 |
| 3d-semantic-segmentation-on-scribblekitti | MinkowskiNet | mIoU: 55.0 |
| 3d-semantic-segmentation-on-stpls3d | MinkowskiNet | mIOU: 51.3 |
| robust-3d-semantic-segmentation-on | MinkUNet-18 | mean Corruption Error (mCE): 100.00% |
| robust-3d-semantic-segmentation-on | MinkUNet-34 | mean Corruption Error (mCE): 100.61% |
| robust-3d-semantic-segmentation-on-nuscenes-c | MinkUNet-34 | mean Corruption Error (mCE): 96.37% |
| robust-3d-semantic-segmentation-on-nuscenes-c | MinkUNet-18 | mean Corruption Error (mCE): 100.00% |
| robust-3d-semantic-segmentation-on-wod-c | MinkUNet-18 | mean Corruption Error (mCE): 100.00% |
| robust-3d-semantic-segmentation-on-wod-c | MinkUNet-34 | mean Corruption Error (mCE): 96.21% |
| semantic-segmentation-on-s3dis | MinkowskiNet | Mean IoU: 65.4 Number of params: 37.9M Params (M): 37.9 |
| semantic-segmentation-on-s3dis-area5 | MinkowskiNet | Number of params: 37.9M mAcc: 71.7 mIoU: 65.4 |
| semantic-segmentation-on-scannet | MinkowskiNet | test mIoU: 73.4 val mIoU: 72.2 |