4 个月前

FSD V2:利用虚拟体素改进全稀疏3D目标检测

FSD V2:利用虚拟体素改进全稀疏3D目标检测

摘要

基于激光雷达的全稀疏架构近年来受到了越来越多的关注。FSDv1 作为这一领域的代表性工作,虽然在复杂结构和手工设计方面存在一定的挑战,但仍取得了令人印象深刻的效能和效率。本文介绍了 FSDv2,这是对前代 FSDv1 的一次进化,旨在简化其结构并消除由手工设计的实例级表示引入的归纳偏差,从而提高更好的泛化适用性。为此,我们引入了 虚拟体素(virtual voxels)的概念,该概念取代了 FSDv1 中基于聚类的实例分割方法。虚拟体素不仅解决了全稀疏检测器中著名的中心特征缺失问题(Center Feature Missing),还赋予框架更加优雅和简洁的方法。因此,我们开发了一系列组件来补充虚拟体素的概念,包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。通过实证验证,我们证明了虚拟体素机制在功能上类似于 FSDv1 中的手工聚类方法,但更具普遍性。我们在三个大规模数据集上进行了实验:Waymo 开放数据集、Argoverse 2 数据集和 nuScenes 数据集。实验结果表明,FSDv2 在所有三个数据集上均表现出最先进的性能,特别是在长距离场景中展现出优越性,并且在各种场景下都能实现具有竞争力的性能。此外,我们提供了全面的实验分析以阐明 FSDv2 的工作原理。为了促进可重复性和进一步研究,我们已在 https://github.com/tusen-ai/SST 开源了 FSDv2。

代码仓库

tusen-ai/sst
官方
pytorch
GitHub 中提及
tusimple/sst
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-multi-object-tracking-on-waymo-open-1CTRL_FSD_TTA
FP/L2: 0.0745
MOTA/L1: 0.7735
MOTA/L2: 0.7429

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FSD V2:利用虚拟体素改进全稀疏3D目标检测 | 论文 | HyperAI超神经