
摘要
我们提出了一种用于驱动由多个独立部件组成的刚性物体动画的新型运动表征方法。在完全无监督的条件下,该方法能够自动识别物体部件,在驱动视频中追踪这些部件,并通过考虑其主轴方向来推断其运动。与以往基于关键点的方法不同,我们的方法提取出具有语义意义且保持一致的区域,能够同时描述位置、形状和姿态信息。这些区域对应于语义相关且彼此区分明显的物体部件,因此在驱动视频帧中更易于被准确检测。为实现前景与背景的有效分离,我们引入额外的仿射变换来建模与物体无关的全局运动。为进一步提升动画效果并防止驱动物体形状信息泄露,我们在区域空间中实现了物体形状与姿态的解耦。实验结果表明,该模型能够成功驱动多种类型的物体,在现有基准测试中显著优于以往方法。我们还构建了一个具有高分辨率视频的具有挑战性的新基准,并验证了在处理具有关节结构的物体时,性能提升尤为显著,用户偏好度达到96.6%,超越当前最优方法。
代码仓库
AliaksandrSiarohin/first-order-model
pytorch
GitHub 中提及
snap-research/articulated-animation
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-reconstruction-on-mgif | Siarohin et al. | L1: 0.0206 |
| video-reconstruction-on-mgif | FOMM | L1: 0.0223 |
| video-reconstruction-on-tai-chi-hd-256 | FOMM | AED: 0.172 AKD: 6.53 L1: 0.056 MKR: 0.033 |
| video-reconstruction-on-tai-chi-hd-256 | Siarohin et al. | AED: 0.152 AKD: 5.58 L1: 0.047 MKR: 0.027 |
| video-reconstruction-on-tai-chi-hd-512 | Siarohin et al. | AED: 0.172 AKD: 13.86 L1: 0.064 MKR: 0.043 |
| video-reconstruction-on-tai-chi-hd-512 | FOMM | AED: 0.203 AKD: 17.12 L1: 0.075 MKR: 0.066 |
| video-reconstruction-on-ted-talks | Siarohin et al. | AED: 0.114 AKD: 3.75 L1: 0.026 MKR: 0.007 |
| video-reconstruction-on-ted-talks | FOMM | AED: 0.163 AKD: 7.07 L1: 0.033 MKR: 0.014 |
| video-reconstruction-on-voxceleb | FOMM | AED: 0.134 AKD: 1.27 L1: 0.041 |
| video-reconstruction-on-voxceleb | Siarohin et al. | AED: 0.133 AKD: 1.28 L1: 0.040 |