3 个月前

基于RGB-D Transformer的高效多任务场景分析

基于RGB-D Transformer的高效多任务场景分析

摘要

场景分析对于使自主系统(如移动机器人)在真实环境中运行至关重要。然而,要全面理解场景,需要同时解决多项任务,例如全景分割(panoptic segmentation)、实例方向估计(instance orientation estimation)以及场景分类(scene classification)。在移动平台计算资源和电池容量有限的情况下,同时完成这些任务极具挑战性。为应对这一挑战,本文提出一种高效的多任务场景分析方法——EMSAFormer,该方法基于RGB-D Transformer编码器,能够同步执行上述各项任务。本方法在先前发表的EMSANet基础上进行改进,但本文证明,EMSANet中采用的双CNN编码器结构可被单一Transformer编码器所替代。为实现这一改进,我们深入研究了如何在单个编码器中高效融合RGB图像与深度信息。为进一步提升在机器人硬件上的推理速度,我们开发了一款定制化的NVIDIA TensorRT扩展,显著优化了EMSAFormer的推理性能。在广泛使用的室内数据集NYUv2、SUNRGB-D和ScanNet上的大量实验表明,本方法在保持实时性的同时,达到了当前最优的性能水平,且在NVIDIA Jetson AGX Orin 32 GB设备上实现了高达39.1 FPS的推理速度。

代码仓库

tui-nicr/emsaformer
官方
pytorch
GitHub 中提及
tui-nicr/nicr-scene-analysis-datasets
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-nyu-depth-v2EMSAFormer (SwinV2-T-128-Multi-Aug)
Mean IoU: 51.26%
semantic-segmentation-on-scannetv2EMSAFormer
Mean IoU: 56.4%
semantic-segmentation-on-sun-rgbdEMSANet (2x ResNet-34 NBt1D, PanopticNDT version, finetuned)
Mean IoU: 48.82%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于RGB-D Transformer的高效多任务场景分析 | 论文 | HyperAI超神经