6 个月前

摘要

我们提出了一种名为 \textit{VoxelKP} 的新型全稀疏网络架构，专为基于激光雷达（LiDAR）数据的人体关键点估计任务而设计。该任务的核心挑战在于：三维空间中的物体分布高度稀疏，而人体关键点检测则需要在人体存在的任何位置都具备精细的局部信息。本文提出了四项创新性方法：首先，我们引入稀疏选择性卷积核（sparse selective kernels），以捕捉多尺度上下文信息；其次，提出稀疏框注意力机制（sparse box-attention），聚焦于建模单个人体实例内部关键点之间的空间相关性；第三，引入空间编码机制，在将三维体素投影至二维鸟瞰图网格表示时，充分利用绝对三维坐标信息；最后，我们设计了混合特征学习策略，将体素级特征处理与稀疏卷积运算有机结合。我们在 Waymo 数据集上对所提方法进行了评估，结果表明，相较于在相同数据上训练的当前最先进方法 \textit{HUM3DIL}，MPJPE 指标提升了 27%；相较于在规模大 25 倍的数据集上预训练的最先进方法 \textit{GC-KPL}，性能提升达 12%。据我们所知，\textit{VoxelKP} 是首个专为解决从 LiDAR 数据中进行三维关键点估计这一高难度任务而设计的单阶段、全稀疏网络架构，并取得了当前最优的性能表现。相关代码已开源，地址为 \url{https://github.com/shijianjian/VoxelKP}。

源 PDF