HyperAIHyperAI

Command Palette

Search for a command to run...

VoxelKP:一种基于体素的网络架构用于LiDAR数据中的人体关键点估计

Jian Shi Peter Wonka

摘要

我们提出了一种名为 \textit{VoxelKP} 的新型全稀疏网络架构,专为基于激光雷达(LiDAR)数据的人体关键点估计任务而设计。该任务的核心挑战在于:三维空间中的物体分布高度稀疏,而人体关键点检测则需要在人体存在的任何位置都具备精细的局部信息。本文提出了四项创新性方法:首先,我们引入稀疏选择性卷积核(sparse selective kernels),以捕捉多尺度上下文信息;其次,提出稀疏框注意力机制(sparse box-attention),聚焦于建模单个人体实例内部关键点之间的空间相关性;第三,引入空间编码机制,在将三维体素投影至二维鸟瞰图网格表示时,充分利用绝对三维坐标信息;最后,我们设计了混合特征学习策略,将体素级特征处理与稀疏卷积运算有机结合。我们在 Waymo 数据集上对所提方法进行了评估,结果表明,相较于在相同数据上训练的当前最先进方法 \textit{HUM3DIL},MPJPE 指标提升了 27%;相较于在规模大 25 倍的数据集上预训练的最先进方法 \textit{GC-KPL},性能提升达 12%。据我们所知,\textit{VoxelKP} 是首个专为解决从 LiDAR 数据中进行三维关键点估计这一高难度任务而设计的单阶段、全稀疏网络架构,并取得了当前最优的性能表现。相关代码已开源,地址为 \url{https://github.com/shijianjian/VoxelKP}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VoxelKP:一种基于体素的网络架构用于LiDAR数据中的人体关键点估计 | 论文 | HyperAI超神经