8 个月前

机器视觉 3D

计算机视觉

计算机视觉

Yuanhui Huang Wenzhao Zheng Yunpeng Zhang Jie Zhou Jiwen Lu

摘要

现代以视觉为中心的自动驾驶感知方法广泛采用了鸟瞰图（BEV）表示来描述三维场景。尽管其效率高于体素表示，但仅用一个平面难以精确描述场景的细粒度三维结构。为了解决这一问题，我们提出了一种三视角（TPV）表示，该表示在鸟瞰图的基础上增加了两个额外的垂直平面。我们通过将每个点在三个平面上的投影特征相加来建模三维空间中的每个点。为了将图像特征提升到三维TPV空间，我们进一步提出了一种基于Transformer的TPV编码器（TPVFormer），以有效获取TPV特征。我们利用注意力机制聚合每个查询在每个TPV平面对应的图像特征。实验表明，我们的模型在稀疏监督下能够有效地预测所有体素的语义占据情况。我们首次证明了仅使用相机输入即可在nuScenes数据集上的LiDAR分割任务中实现与基于LiDAR的方法相当的性能。代码：https://github.com/wzzheng/TPVFormer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器视觉 3D

计算机视觉

计算机视觉

Yuanhui Huang Wenzhao Zheng Yunpeng Zhang Jie Zhou Jiwen Lu

摘要

现代以视觉为中心的自动驾驶感知方法广泛采用了鸟瞰图（BEV）表示来描述三维场景。尽管其效率高于体素表示，但仅用一个平面难以精确描述场景的细粒度三维结构。为了解决这一问题，我们提出了一种三视角（TPV）表示，该表示在鸟瞰图的基础上增加了两个额外的垂直平面。我们通过将每个点在三个平面上的投影特征相加来建模三维空间中的每个点。为了将图像特征提升到三维TPV空间，我们进一步提出了一种基于Transformer的TPV编码器（TPVFormer），以有效获取TPV特征。我们利用注意力机制聚合每个查询在每个TPV平面对应的图像特征。实验表明，我们的模型在稀疏监督下能够有效地预测所有体素的语义占据情况。我们首次证明了仅使用相机输入即可在nuScenes数据集上的LiDAR分割任务中实现与基于LiDAR的方法相当的性能。代码：https://github.com/wzzheng/TPVFormer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供