3 个月前

AggPose:用于婴儿姿态估计的深度聚合视觉Transformer

AggPose:用于婴儿姿态估计的深度聚合视觉Transformer

摘要

新生儿的运动与姿态评估有助于经验丰富的儿科医生预测神经发育障碍,从而实现相关疾病的早期干预。然而,当前大多数最先进的基于人工智能的人体姿态估计算法主要针对成人,缺乏面向婴儿姿态估计的公开基准数据集。本文通过提出一个婴儿姿态估计数据集,并引入一种名为Deep Aggregation Vision Transformer(AggPose)的人体姿态估计算法,填补了这一空白。该方法构建了一个无需在早期阶段使用卷积操作即可快速训练的全Transformer框架,将Transformer与MLP结构推广至特征图内部的高分辨率深层特征聚合,从而实现不同视觉层次间的信息融合。我们在COCO姿态数据集上对AggPose进行预训练,并将其应用于我们新发布的大型婴儿姿态估计数据集。实验结果表明,AggPose能够有效学习多尺度特征,显著提升婴儿姿态估计的性能。在婴儿姿态估计数据集上,AggPose的表现优于混合模型HRFormer和TokenPose;此外,在COCO验证集上的姿态估计任务中,AggPose平均优于HRFormer 0.8 AP。相关代码已开源,地址为:github.com/SZAR-LAB/AggPose。

代码仓库

szar-lab/aggpose
官方
pytorch

基准测试

基准方法指标
keypoint-detection-on-cocoAggPose(256x192)
Test AP: 75.7
Validation AP: 76.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AggPose:用于婴儿姿态估计的深度聚合视觉Transformer | 论文 | HyperAI超神经