4 个月前

4D 空间-时间卷积神经网络:Minkowski 卷积神经网络

4D 空间-时间卷积神经网络:Minkowski 卷积神经网络

摘要

在许多机器人技术和虚拟现实/增强现实(VR/AR)应用中,3D视频是现成的输入源(连续的深度图像序列或激光雷达扫描)。然而,这些3D视频通常以逐帧的方式通过2D卷积神经网络(ConvNets)或3D感知算法进行处理。在这项工作中,我们提出了一种4维卷积神经网络,用于时空感知,可以直接利用高维卷积处理此类3D视频。为此,我们采用了稀疏张量,并提出了广义稀疏卷积,该方法涵盖了所有离散卷积。为了实现广义稀疏卷积,我们创建了一个开源的自动微分库,为高维卷积神经网络提供了丰富的函数。我们使用该库构建了4D时空卷积神经网络,并在多个3D语义分割基准数据集以及为3D视频感知提出的4D数据集上对其进行了验证。为了克服4D空间中的挑战,我们提出了一种特殊的广义稀疏卷积——混合核(Hybrid Kernel),以及一种三边静止条件随机场(Trilateral-Stationary Conditional Random Field),后者在7维时空色度空间中强制执行时空一致性。实验结果表明,仅使用广义3D稀疏卷积的卷积神经网络可以大幅超越2D或2D-3D混合方法。此外,我们在3D视频上展示了4D时空卷积神经网络对噪声具有鲁棒性,在某些情况下优于3D卷积神经网络,并且比3D对应模型更快。

代码仓库

NVIDIA/MinkowskiEngine
pytorch
GitHub 中提及
shwoo93/minkowskiengine
pytorch
GitHub 中提及
buildingnet/buildingnet_dataset
pytorch
GitHub 中提及
ldkong1205/Robo3D
pytorch
GitHub 中提及
dkoh0207/lartpc_minkowski
pytorch
GitHub 中提及
StanfordVL/MinkowskiEngine
官方
pytorch
GitHub 中提及
mit-han-lab/spvnas
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-segmentation-on-scannet-1MinkowskiNet
Top-1 IoU: 0.292
Top-3 IoU: 0.531
3d-semantic-segmentation-on-scannet200MinkUNet
test mIoU: 25.3
val mIoU: 25.0
3d-semantic-segmentation-on-scribblekittiMinkowskiNet
mIoU: 55.0
3d-semantic-segmentation-on-stpls3dMinkowskiNet
mIOU: 51.3
robust-3d-semantic-segmentation-onMinkUNet-18
mean Corruption Error (mCE): 100.00%
robust-3d-semantic-segmentation-onMinkUNet-34
mean Corruption Error (mCE): 100.61%
robust-3d-semantic-segmentation-on-nuscenes-cMinkUNet-34
mean Corruption Error (mCE): 96.37%
robust-3d-semantic-segmentation-on-nuscenes-cMinkUNet-18
mean Corruption Error (mCE): 100.00%
robust-3d-semantic-segmentation-on-wod-cMinkUNet-18
mean Corruption Error (mCE): 100.00%
robust-3d-semantic-segmentation-on-wod-cMinkUNet-34
mean Corruption Error (mCE): 96.21%
semantic-segmentation-on-s3disMinkowskiNet
Mean IoU: 65.4
Number of params: 37.9M
Params (M): 37.9
semantic-segmentation-on-s3dis-area5MinkowskiNet
Number of params: 37.9M
mAcc: 71.7
mIoU: 65.4
semantic-segmentation-on-scannetMinkowskiNet
test mIoU: 73.4
val mIoU: 72.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
4D 空间-时间卷积神经网络:Minkowski 卷积神经网络 | 论文 | HyperAI超神经