3 个月前

BAEFormer:用于鸟瞰图语义分割的双向与早期交互Transformer

BAEFormer:用于鸟瞰图语义分割的双向与早期交互Transformer

摘要

鸟瞰图(Bird's Eye View, BEV)语义分割是自动驾驶领域的一项关键任务。然而,现有的基于Transformer的方法在将透视视图(Perspective View, PV)转换为BEV时面临挑战,主要原因在于其单向且后置的交互机制。为解决这一问题,本文提出一种新型的双向早期交互Transformer框架——BAEFormer,该框架包含两个核心组件:(i)早期交互的PV-BEV转换流程,以及(ii)双向交叉注意力机制。此外,我们发现交叉注意力模块中图像特征图的分辨率对最终性能影响有限。基于这一关键观察,我们提出增大输入图像尺寸,并对多视角图像特征进行下采样以实现跨视角交互,从而在保持计算量可控的前提下进一步提升分割精度。所提出的BEV语义分割方法在nuScenes数据集上实现了实时推理速度下的最先进性能,即在单张A100 GPU上达到45帧/秒(FPS)的推理速度,同时获得38.9%的mIoU(平均交并比)。

基准测试

基准方法指标
bird-s-eye-view-semantic-segmentation-onBAEFormer
IoU veh - 224x480 - No vis filter - 100x100 at 0.5: 36
IoU veh - 224x480 - Vis filter. - 100x100 at 0.5: 38.9
IoU veh - 448x800 - No vis filter - 100x100 at 0.5: 37.8
IoU veh - 448x800 - Vis filter. - 100x100 at 0.5: 41.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BAEFormer:用于鸟瞰图语义分割的双向与早期交互Transformer | 论文 | HyperAI超神经