6 个月前

计算机视觉

计算机视觉

Zixiang Zhou Xiangchen Zhao Yu Wang Panqu Wang Hassan Foroosh

摘要

基于查询的Transformer在众多图像领域任务中展现出构建长距离注意力的强大潜力，但由于点云数据规模庞大，其在基于LiDAR的3D目标检测任务中尚未得到充分应用。本文提出CenterFormer，一种基于中心点的Transformer网络，用于3D目标检测。CenterFormer首先利用中心热图在标准体素化点云编码器的基础上筛选中心候选点，随后将中心候选点的特征作为Transformer中的查询嵌入（query embedding）。为进一步融合多帧特征，我们设计了一种通过交叉注意力机制进行特征融合的方法。最后，在输出的中心特征表示上添加回归头，以预测边界框。该设计有效降低了Transformer结构的收敛难度与计算复杂度。实验结果表明，相较于当前先进的无锚框目标检测网络基线，CenterFormer取得了显著性能提升。在Waymo开放数据集上，CenterFormer作为单模型实现了当前最优性能，在验证集上达到73.7%的mAPH，在测试集上达到75.6%的mAPH，显著超越了所有此前发表的基于CNN和Transformer的方法。项目代码已公开，可访问：https://github.com/TuSimple/centerformer

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Zixiang Zhou Xiangchen Zhao Yu Wang Panqu Wang Hassan Foroosh

摘要

基于查询的Transformer在众多图像领域任务中展现出构建长距离注意力的强大潜力，但由于点云数据规模庞大，其在基于LiDAR的3D目标检测任务中尚未得到充分应用。本文提出CenterFormer，一种基于中心点的Transformer网络，用于3D目标检测。CenterFormer首先利用中心热图在标准体素化点云编码器的基础上筛选中心候选点，随后将中心候选点的特征作为Transformer中的查询嵌入（query embedding）。为进一步融合多帧特征，我们设计了一种通过交叉注意力机制进行特征融合的方法。最后，在输出的中心特征表示上添加回归头，以预测边界框。该设计有效降低了Transformer结构的收敛难度与计算复杂度。实验结果表明，相较于当前先进的无锚框目标检测网络基线，CenterFormer取得了显著性能提升。在Waymo开放数据集上，CenterFormer作为单模型实现了当前最优性能，在验证集上达到73.7%的mAPH，在测试集上达到75.6%的mAPH，显著超越了所有此前发表的基于CNN和Transformer的方法。项目代码已公开，可访问：https://github.com/TuSimple/centerformer

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供