
摘要
视觉Transformer在众多计算机视觉任务中取得了显著成功。现有大多数方法通过将图像划分为规则且固定的网格来生成视觉token,将每个网格单元视为一个token。然而,在以人类为中心的视觉任务中,并非所有图像区域都具有同等重要性:例如,人体部位需要高分辨率的精细表示(即较多的token),而图像背景则可用少量token进行建模。为解决这一问题,本文提出一种新型视觉Transformer——Token Clustering Transformer(TCFormer),该模型通过逐步聚类的方式合并token,允许来自不同位置的token以灵活的形状和大小进行聚合。TCFormer中的token不仅能聚焦于关键区域,还能自适应调整其形状以匹配语义概念,并在包含关键细节的区域采用更高分辨率,从而更有效地捕捉细节信息。大量实验表明,TCFormer在多个具有挑战性的以人为核心的视觉任务和数据集上均持续优于现有方法,包括COCO-WholeBody数据集上的全身姿态估计任务以及3DPW数据集上的3D人体网格重建任务。代码已开源,地址为:https://github.com/zengwang430521/TCFormer.git
代码仓库
zengwang430521/tcformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-human-pose-estimation-on-coco-wholebody-1 | TCFormer | WB: 64.2 body: 71.8 face: 79.0 foot: 74.4 hand: 61.4 |
| 3d-human-pose-estimation-on-3dpw | TCFormer | MPJPE: 80.6 PA-MPJPE: 49.3 |
| 3d-human-pose-estimation-on-human36m | TCFormer | Average MPJPE (mm): 62.9 PA-MPJPE: 42.8 |