3 个月前

VoxelKP:一种基于体素的网络架构用于LiDAR数据中的人体关键点估计

VoxelKP:一种基于体素的网络架构用于LiDAR数据中的人体关键点估计

摘要

我们提出了一种名为 \textit{VoxelKP} 的新型全稀疏网络架构,专为基于激光雷达(LiDAR)数据的人体关键点估计任务而设计。该任务的核心挑战在于:三维空间中的物体分布高度稀疏,而人体关键点检测则需要在人体存在的任何位置都具备精细的局部信息。本文提出了四项创新性方法:首先,我们引入稀疏选择性卷积核(sparse selective kernels),以捕捉多尺度上下文信息;其次,提出稀疏框注意力机制(sparse box-attention),聚焦于建模单个人体实例内部关键点之间的空间相关性;第三,引入空间编码机制,在将三维体素投影至二维鸟瞰图网格表示时,充分利用绝对三维坐标信息;最后,我们设计了混合特征学习策略,将体素级特征处理与稀疏卷积运算有机结合。我们在 Waymo 数据集上对所提方法进行了评估,结果表明,相较于在相同数据上训练的当前最先进方法 \textit{HUM3DIL},MPJPE 指标提升了 27%;相较于在规模大 25 倍的数据集上预训练的最先进方法 \textit{GC-KPL},性能提升达 12%。据我们所知,\textit{VoxelKP} 是首个专为解决从 LiDAR 数据中进行三维关键点估计这一高难度任务而设计的单阶段、全稀疏网络架构,并取得了当前最优的性能表现。相关代码已开源,地址为 \url{https://github.com/shijianjian/VoxelKP}。

代码仓库

shijianjian/voxelkp
官方
pytorch

基准测试

基准方法指标
3d-human-pose-estimation-on-waymo-openVoxelKP
MPJPE: 8.87

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VoxelKP:一种基于体素的网络架构用于LiDAR数据中的人体关键点估计 | 论文 | HyperAI超神经