8 个月前

计算机视觉

多任务学习

多模态表征

计算机视觉

Zhongang Cai∗1,2,3 Wanqi Yin∗2,4 Ailing Zeng5 Chen Wei3 Qingping Sun2 Yanjun Wang2 Hui En Pang1,2 Haiyi Mei2 Mingyuan Zhang1 Lei Zhang5

摘要

表达性人体姿态和形状估计（EHPS）统一了身体、手部和面部的动作捕捉，具有广泛的应用前景。尽管已取得令人鼓舞的进展，当前最先进的方法仍然主要依赖于有限的训练数据集。在本研究中，我们探讨了将EHPS扩展到首个通用基础模型（命名为SMPLer-X），该模型采用了ViT-Huge作为主干网络，并使用来自多样化数据源的多达450万个实例进行训练。借助大数据和大型模型，SMPLer-X在各种测试基准上表现出色，并且在未见过的环境中也展现出极佳的迁移能力。1) 在数据扩展方面，我们对32个EHPS数据集进行了系统性的研究，涵盖了单一数据集训练模型无法应对的多种场景。更重要的是，通过从广泛的基准测试过程中获得的洞见，我们优化了训练方案并选择了能够显著提升EHPS能力的数据集。2) 在模型扩展方面，我们利用视觉变换器研究了EHPS中模型规模的扩展规律。此外，我们的微调策略使SMPLer-X能够转换为专门模型，从而实现进一步的性能提升。值得注意的是，我们的基础模型SMPLer-X在包括AGORA（107.2毫米NMVE）、UBody（57.4毫米PVE）、EgoBody（63.6毫米PVE）和EHF（未经微调的情况下达到62.3毫米PVE）在内的七个基准测试中持续取得最先进水平的结果。主页：https://caizhongang.github.io/projects/SMPLer-X/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多任务学习

多模态表征

计算机视觉

Zhongang Cai∗1,2,3 Wanqi Yin∗2,4 Ailing Zeng5 Chen Wei3 Qingping Sun2 Yanjun Wang2 Hui En Pang1,2 Haiyi Mei2 Mingyuan Zhang1 Lei Zhang5

摘要

表达性人体姿态和形状估计（EHPS）统一了身体、手部和面部的动作捕捉，具有广泛的应用前景。尽管已取得令人鼓舞的进展，当前最先进的方法仍然主要依赖于有限的训练数据集。在本研究中，我们探讨了将EHPS扩展到首个通用基础模型（命名为SMPLer-X），该模型采用了ViT-Huge作为主干网络，并使用来自多样化数据源的多达450万个实例进行训练。借助大数据和大型模型，SMPLer-X在各种测试基准上表现出色，并且在未见过的环境中也展现出极佳的迁移能力。1) 在数据扩展方面，我们对32个EHPS数据集进行了系统性的研究，涵盖了单一数据集训练模型无法应对的多种场景。更重要的是，通过从广泛的基准测试过程中获得的洞见，我们优化了训练方案并选择了能够显著提升EHPS能力的数据集。2) 在模型扩展方面，我们利用视觉变换器研究了EHPS中模型规模的扩展规律。此外，我们的微调策略使SMPLer-X能够转换为专门模型，从而实现进一步的性能提升。值得注意的是，我们的基础模型SMPLer-X在包括AGORA（107.2毫米NMVE）、UBody（57.4毫米PVE）、EgoBody（63.6毫米PVE）和EHF（未经微调的情况下达到62.3毫米PVE）在内的七个基准测试中持续取得最先进水平的结果。主页：https://caizhongang.github.io/projects/SMPLer-X/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供