7 个月前

计算机视觉

Zhaoxiang Zhang Wei Sui Qian Zhang Junran Peng Yonghao He Cong Pan

摘要

鸟瞰图（Bird's Eye View, BEV）语义分割是自动驾驶领域的一项关键任务。然而，现有的基于Transformer的方法在将透视视图（Perspective View, PV）转换为BEV时面临挑战，主要原因在于其单向且后置的交互机制。为解决这一问题，本文提出一种新型的双向早期交互Transformer框架——BAEFormer，该框架包含两个核心组件：（i）早期交互的PV-BEV转换流程，以及（ii）双向交叉注意力机制。此外，我们发现交叉注意力模块中图像特征图的分辨率对最终性能影响有限。基于这一关键观察，我们提出增大输入图像尺寸，并对多视角图像特征进行下采样以实现跨视角交互，从而在保持计算量可控的前提下进一步提升分割精度。所提出的BEV语义分割方法在nuScenes数据集上实现了实时推理速度下的最先进性能，即在单张A100 GPU上达到45帧/秒（FPS）的推理速度，同时获得38.9%的mIoU（平均交并比）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Zhaoxiang Zhang Wei Sui Qian Zhang Junran Peng Yonghao He Cong Pan

摘要

鸟瞰图（Bird's Eye View, BEV）语义分割是自动驾驶领域的一项关键任务。然而，现有的基于Transformer的方法在将透视视图（Perspective View, PV）转换为BEV时面临挑战，主要原因在于其单向且后置的交互机制。为解决这一问题，本文提出一种新型的双向早期交互Transformer框架——BAEFormer，该框架包含两个核心组件：（i）早期交互的PV-BEV转换流程，以及（ii）双向交叉注意力机制。此外，我们发现交叉注意力模块中图像特征图的分辨率对最终性能影响有限。基于这一关键观察，我们提出增大输入图像尺寸，并对多视角图像特征进行下采样以实现跨视角交互，从而在保持计算量可控的前提下进一步提升分割精度。所提出的BEV语义分割方法在nuScenes数据集上实现了实时推理速度下的最先进性能，即在单张A100 GPU上达到45帧/秒（FPS）的推理速度，同时获得38.9%的mIoU（平均交并比）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供