
摘要
从单张图像中稳健地重建三维手部网格极具挑战性,这主要是由于现有真实世界数据集缺乏多样性所致。尽管数据合成有助于缓解这一问题,但合成数据与真实数据之间的差距仍然限制了其应用。在本研究中,我们提出了HandBooster,这是一种新的方法,通过在手部与物体交互的条件下训练条件生成空间,并有目的地采样该空间以合成有效的数据样本,从而提升数据多样性和三维手部网格重建性能。首先,我们构建了多样的内容感知条件,以指导扩散模型生成具有不同手部外观、姿态、视角和背景的真实图像;幸运的是,准确的三维注释可以免费获得。接着,我们设计了一种基于相似度感知分布采样策略的新颖条件生成器,旨在刻意寻找与训练集不同的新颖且真实的交互姿态。借助我们的方法,多个基线模型在HO3D和DexYCB基准测试中的表现显著超越了当前的最佳水平(SOTA)。我们的代码将在以下网址发布:https://github.com/hxwork/HandBooster_Pytorch。
代码仓库
hxwork/handbooster_pytorch
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-ho-3d | HandBooster | AUC_J: 0.836 AUC_V: 0.832 F@15mm: 0.972 F@5mm: 0.585 PA-MPJPE (mm): 8.2 PA-MPVPE: 8.4 |