3 个月前

基于语义图注意力网络与距离信息的3D全身姿态估计

基于语义图注意力网络与距离信息的3D全身姿态估计

摘要

近年来,针对三维姿态估计,学术界提出了大量多样化的方法。在这些方法中,自注意力机制与图卷积均已被证实为高效且实用的技术。基于上述两种技术的优势,我们提出了一种新型的语义图注意力网络(Semantic Graph Attention Network),该网络既能利用自注意力机制捕捉全局上下文信息,又能通过图卷积有效处理骨骼结构的局部连接关系与拓扑约束。此外,我们设计了一种体部部件解码器(Body Part Decoder),用于辅助提取并优化与身体特定部位相关的信息。为进一步提升模型对空间关系的理解能力,我们还引入了距离信息,显著增强了模型对三维空间中相对位置关系的建模能力。最后,我们提出了一种几何损失函数(Geometry Loss),对身体骨架的结构施加关键性约束,确保模型预测结果符合人体姿态的自然物理限制。实验结果验证了所提方法的有效性,表明系统中的每一模块均对提升姿态估计性能具有不可或缺的作用。与当前最先进的方法相比,本工作不仅达到了现有基准水平,更实现了超越。

基准测试

基准方法指标
3d-facial-landmark-localization-on-h3wbSemGAN
Average MPJPE (mm): 15.95
3d-hand-pose-estimation-on-h3wbSemGAN
Average MPJPE (mm): 27.77
3d-human-pose-estimation-on-h3wbSemGAN
MPJPE: 45.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语义图注意力网络与距离信息的3D全身姿态估计 | 论文 | HyperAI超神经