
摘要
生成具有新颖性 yet 又保持真实感的人物图像是一项极具挑战性的任务,其难点在于图像中各类因素(如前景、背景和姿态信息)之间复杂的相互作用。本文提出一种新颖的两阶段重构框架,旨在学习上述图像因素的解耦表征,并同时生成新的人员图像。首先,我们设计了一种多分支重构网络,用于解耦并编码前景、背景和姿态三个因素为嵌入特征,随后将这些特征组合以重建输入图像本身。其次,通过对抗性学习方式,分别学习三个对应的映射函数,将高斯噪声映射至每个因素所对应的已学习嵌入特征空间。基于所提出的框架,我们能够对输入图像的前景、背景和姿态进行灵活操控,并可通过采样新的嵌入特征来生成目标导向的图像变换,从而实现对生成过程更精细的控制。在Market-1501和DeepFashion数据集上的实验表明,本模型不仅能生成具有新前景、新背景和新姿态的真实人物图像,还能对生成因素进行精确操控,并实现中间状态的插值。另一组在Market-1501上的实验进一步验证,本模型在行人重识别任务中也具有显著的辅助作用。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| gesture-to-gesture-translation-on-ntu-hand | DPIG | AMT: 7.1 IS: 2.4547 PSNR: 30.6487 |
| gesture-to-gesture-translation-on-senz3d | DPIG | AMT: 6.9 IS: 3.3874 PSNR: 26.9451 |
| pose-transfer-on-deep-fashion | Disentangled PG | IS: 3.228 SSIM: 0.614 |