7 个月前

摘要

我们提出了点体素卷积神经网络（Point-Voxel CNN, PVCNN）以实现高效、快速的三维深度学习。以往的研究通常使用基于体素或基于点的神经网络模型来处理三维数据。然而，这两种方法在计算上都不够高效。基于体素的模型的计算成本和内存占用随着输入分辨率的增加而呈立方增长，这使得提高分辨率变得非常耗费内存。至于基于点的网络，高达80%的时间被浪费在对稀疏数据进行结构化处理上，这些数据具有较差的内存局部性，而不是用于实际特征提取。本文中，我们提出了一种PVCNN模型，该模型使用点表示三维输入数据以减少内存消耗，同时在体素中执行卷积操作以减少不规则、稀疏的数据访问并提高局部性。我们的PVCNN模型在内存和计算效率方面都表现出色。通过在语义分割和部件分割数据集上的评估，它实现了比基于体素的基线模型高得多的精度，并且GPU内存占用减少了10倍；与最先进的基于点的模型相比，它的平均速度提高了7倍。值得注意的是，较窄版本的PVCNN在部件和场景分割基准测试中比PointNet（一个极其高效的模型）的速度快2倍，并且精度更高。我们在三维目标检测任务中验证了PVCNN的一般有效性：通过用PVConv替换Frustrum PointNet中的基本组件，它在平均mAP上比Frustrum PointNet++高出2.4%，并且测量速度提高了1.5倍，同时GPU内存占用也减少了1.5倍。

源 PDF