4 个月前

基于文本引导的从2D集合生成3D人体模型

基于文本引导的从2D集合生成3D人体模型

摘要

三维人体建模在游戏、电影和动画中的互动应用已十分广泛。这些角色的定制对于创意和可扩展性至关重要,这突显了可控性的的重要性。在本研究中,我们引入了一种基于文本引导的三维人体生成方法(Text-guided 3D Human Generation, T3H),该模型能够在时尚描述的指导下生成三维人体。我们的目标有两个:1)生成的三维人体应具有清晰的渲染效果;2)其服装由给定的文本控制。为了解决这一T3H任务,我们提出了组合跨模态人体(Compositional Cross-modal Human, CCH)。CCH采用跨模态注意力机制,将组合式人体渲染与提取出的时尚语义进行融合。每个身体部位都能感知到相关的文本指导,并将其作为视觉模式。我们结合了人体先验知识和语义区分技术,以增强三维几何变换和细粒度一致性,从而能够从二维数据集中高效学习。我们在DeepFashion和SHHQ数据集上进行了评估,涵盖了多样化的时尚属性,包括上衣和下装的形状、面料和颜色。大量实验表明,CCH在T3H任务中取得了高效且优越的结果。

基准测试

基准方法指标
text-to-3d-human-generation-on-deepfashionCCH
CLIP Score: 25.031
Depth Error: 1.21
Fashion Accuracy: 72.038
Frechet Inception Distance: 22.175
Percentage of Correct Keypoints: 88.313
text-to-3d-human-generation-on-shhqCCH
CLIP Score: 27.873
Depth Error: 1.67
Fashion Accuracy: 76.194
Frechet Inception Distance: 33.348
Percentage of Correct Keypoints: 87.879

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于文本引导的从2D集合生成3D人体模型 | 论文 | HyperAI超神经