3 个月前

OA-CNNs:面向3D语义分割的全适应稀疏CNN

OA-CNNs:面向3D语义分割的全适应稀疏CNN

摘要

2020年代三维感知技术的迅猛发展始于点云Transformer的提出。这类模型迅速超越了稀疏卷积神经网络(sparse CNNs),成为三维语义分割等任务的最先进方法。然而,稀疏CNN因其计算效率高、部署简便等优势,依然具有重要价值。在本研究中,我们重新审视稀疏CNN的设计差异,并探索其性能上限。研究发现,性能差距的关键在于模型的自适应能力。为此,我们提出两个核心组件:空间自适应感受野(adaptive receptive fields)和自适应关系建模(adaptive relation),以弥合稀疏CNN与Transformer之间的性能鸿沟。基于这一探索,我们提出了Omni-Adaptive 3D CNNs(OA-CNNs)——一类新型网络家族,通过引入轻量级模块,在几乎不增加计算开销的前提下,显著提升了稀疏CNN的自适应能力。令人瞩目的是,OA-CNNs完全不依赖自注意力机制,在室内与室外场景中均实现了优于点云Transformer的精度表现,同时具备更低的延迟和内存消耗。具体而言,在ScanNet v2、nuScenes和SemanticKITTI的验证集上,OA-CNNs分别取得了76.1%、78.9%和70.6%的mIoU(平均交并比),且推理速度最高可达Transformer类模型的5倍。这一成果揭示了纯稀疏CNN在三维感知任务中具备超越Transformer架构的巨大潜力。

代码仓库

Pointcept/Pointcept
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-segmentation-on-scannet200OA-CNNs
test mIoU: 32.3
val mIoU: 33.3
3d-semantic-segmentation-on-semantickittiOA-CNNs
val mIoU: 70.6%
lidar-semantic-segmentation-on-nuscenesOA-CNNs
val mIoU: 0.789
semantic-segmentation-on-scannetOA-CNNs
test mIoU: 75.6
val mIoU: 76.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供