6 个月前

摘要

从单目图像中进行三维人体形状与姿态估计是计算机视觉领域的一个活跃研究方向，对活动识别、虚拟角色创建等新兴应用的发展具有重要推动作用。现有的深度学习方法在进行三维人体形状与姿态估计时，通常依赖于较高分辨率的输入图像；然而，在视频监控、体育赛事转播等实际应用场景中，高分辨率视觉内容往往难以获取。现实场景中的低分辨率图像在尺寸上存在较大差异，而针对某一特定分辨率训练的模型通常无法在其他分辨率下实现平滑退化。目前解决低分辨率输入问题的两种常见方法分别为：对输入图像应用超分辨率技术，但这可能导致视觉伪影；或为每种分辨率单独训练一个模型，这在多数实际应用中并不现实。为应对上述挑战，本文提出一种名为RSC-Net的新算法，该算法由三部分组成：分辨率感知网络（Resolution-aware network）、自监督损失函数（Self-supervision loss）以及对比学习机制（Contrastive learning scheme）。所提出的网络架构能够仅通过一个统一模型，实现跨不同分辨率的三维人体形状与姿态学习。自监督损失函数促使模型输出在尺度上保持一致性，而对比学习机制则进一步强化深层特征在不同尺度下的尺度一致性。实验结果表明，这两种新型训练损失函数在弱监督条件下显著提升了三维形状与姿态估计的鲁棒性。大量实验证明，RSC-Net在处理具有挑战性的低分辨率图像时，性能持续优于现有最先进方法。

源 PDF