
摘要
三维人体建模在游戏、电影和动画中的互动应用已十分广泛。这些角色的定制对于创意和可扩展性至关重要,这突显了可控性的的重要性。在本研究中,我们引入了一种基于文本引导的三维人体生成方法(Text-guided 3D Human Generation, T3H),该模型能够在时尚描述的指导下生成三维人体。我们的目标有两个:1)生成的三维人体应具有清晰的渲染效果;2)其服装由给定的文本控制。为了解决这一T3H任务,我们提出了组合跨模态人体(Compositional Cross-modal Human, CCH)。CCH采用跨模态注意力机制,将组合式人体渲染与提取出的时尚语义进行融合。每个身体部位都能感知到相关的文本指导,并将其作为视觉模式。我们结合了人体先验知识和语义区分技术,以增强三维几何变换和细粒度一致性,从而能够从二维数据集中高效学习。我们在DeepFashion和SHHQ数据集上进行了评估,涵盖了多样化的时尚属性,包括上衣和下装的形状、面料和颜色。大量实验表明,CCH在T3H任务中取得了高效且优越的结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-3d-human-generation-on-deepfashion | CCH | CLIP Score: 25.031 Depth Error: 1.21 Fashion Accuracy: 72.038 Frechet Inception Distance: 22.175 Percentage of Correct Keypoints: 88.313 |
| text-to-3d-human-generation-on-shhq | CCH | CLIP Score: 27.873 Depth Error: 1.67 Fashion Accuracy: 76.194 Frechet Inception Distance: 33.348 Percentage of Correct Keypoints: 87.879 |