4 个月前

MatrixVT:高效的多相机到鸟瞰视图变换技术用于三维感知

MatrixVT:高效的多相机到鸟瞰视图变换技术用于三维感知

摘要

本文提出了一种高效的多摄像头到鸟瞰图(BEV)视图变换方法,用于三维感知,命名为MatrixVT。现有的视图变换方法要么存在较差的变换效率,要么依赖于特定设备的操作符,这限制了BEV模型的广泛应用。相比之下,我们的方法仅通过卷积和矩阵乘法(MatMul)高效生成BEV特征。具体而言,我们提出将BEV特征描述为图像特征与一个稀疏的特征传输矩阵(Feature Transporting Matrix, FTM)的矩阵乘法结果。随后引入了一个主成分提取模块,以压缩图像特征的维度并减少FTM的稀疏性。此外,我们提出了环形与射线分解(Ring & Ray Decomposition),用两个矩阵替代FTM,并重新设计了我们的流水线以进一步减少计算量。与现有方法相比,MatrixVT不仅速度更快、占用内存更少,而且部署友好。在nuScenes基准上的大量实验表明,我们的方法在目标检测和地图分割任务中具有高效率,并且取得了与最先进方法相当的结果。

代码仓库

megvii-basedetection/bevdepth
pytorch
GitHub 中提及
ZRandomize/MatrixVT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
bird-s-eye-view-semantic-segmentation-onMatrixVT
IoU lane - 224x480 - 100x100 at 0.5: 44.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MatrixVT:高效的多相机到鸟瞰视图变换技术用于三维感知 | 论文 | HyperAI超神经