8 个月前

摘要

在许多机器人技术和虚拟现实/增强现实（VR/AR）应用中，3D视频是现成的输入源（连续的深度图像序列或激光雷达扫描）。然而，这些3D视频通常以逐帧的方式通过2D卷积神经网络（ConvNets）或3D感知算法进行处理。在这项工作中，我们提出了一种4维卷积神经网络，用于时空感知，可以直接利用高维卷积处理此类3D视频。为此，我们采用了稀疏张量，并提出了广义稀疏卷积，该方法涵盖了所有离散卷积。为了实现广义稀疏卷积，我们创建了一个开源的自动微分库，为高维卷积神经网络提供了丰富的函数。我们使用该库构建了4D时空卷积神经网络，并在多个3D语义分割基准数据集以及为3D视频感知提出的4D数据集上对其进行了验证。为了克服4D空间中的挑战，我们提出了一种特殊的广义稀疏卷积——混合核（Hybrid Kernel），以及一种三边静止条件随机场（Trilateral-Stationary Conditional Random Field），后者在7维时空色度空间中强制执行时空一致性。实验结果表明，仅使用广义3D稀疏卷积的卷积神经网络可以大幅超越2D或2D-3D混合方法。此外，我们在3D视频上展示了4D时空卷积神经网络对噪声具有鲁棒性，在某些情况下优于3D卷积神经网络，并且比3D对应模型更快。

源 PDF 查看代码