
摘要
近年来,基于虚拟/伪点的3D目标检测通过深度补全无缝融合RGB图像和LiDAR数据,引起了广泛关注。然而,从图像生成的虚拟点非常密集,导致在检测过程中引入了大量冗余计算。同时,由不准确的深度补全带来的噪声显著降低了检测精度。本文提出了一种快速而有效的骨干网络,称为VirConvNet,该网络基于一种新的运算符VirConv(Virtual Sparse Convolution),用于基于虚拟点的3D目标检测。VirConv包含两个关键设计:(1) StVD(Stochastic Voxel Discard)和(2) NRConv(Noise-Resistant Submanifold Convolution)。StVD通过丢弃大量附近的冗余体素来缓解计算问题。NRConv通过在2D图像空间和3D LiDAR空间中编码体素特征来解决噪声问题。通过集成VirConv,我们首先开发了一个基于早期融合设计的高效流水线VirConv-L。然后,我们构建了一个基于变换精炼方案的高精度流水线VirConv-T。最后,我们开发了一个基于伪标签框架的半监督流水线VirConv-S。在KITTI汽车3D检测测试排行榜上,我们的VirConv-L实现了85%的平均精度(AP),运行速度为56毫秒。我们的VirConv-T和VirConv-S分别达到了86.3%和87.2%的高精度AP,并且目前分别排名第二和第一。代码可在https://github.com/hailanyi/VirConv获取。
代码仓库
hailanyi/virconv
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiple-object-tracking-on-kitti-test-online | VirConvTrack | HOTA: 79.9 IDSW: 201 MOTA: 89.1 |