6 个月前

摘要

我们研究的是仅基于RGB图像，将类别级姿态估计从源域无监督地适应到目标域，且在适应过程中完全无法访问源域数据或3D标注的“无源域无监督”姿态估计问题。收集和标注真实世界的3D数据及其对应图像是一项耗时、昂贵但不可避免的过程，因为即便现有的3D姿态域自适应方法，也仍需目标域中的3D数据作为基础。为此，我们提出3DUDA——一种无需依赖3D或深度数据即可适应干扰严重的目标域的新方法。我们的核心洞察源于观察到：在分布外（OOD）场景下，特定物体的局部子部件具有高度稳定性，这使得我们可以战略性地利用这些不变的子结构来实现有效的模型更新。我们采用简单的长方体网格（cuboid mesh）来表示物体类别，并利用在每个网格顶点上通过微分渲染学习得到的神经特征激活生成模型。我们聚焦于局部鲁棒的网格顶点特征，即使全局姿态不准确，也基于其与目标域对应特征之间的空间接近性进行迭代更新。随后，模型以期望最大化（EM）的范式进行训练，交替更新顶点特征与特征提取器。我们证明，在较弱假设下，该方法等价于在全局伪标签数据集上进行微调，且能够渐近收敛至目标域的真实分布。通过大量实证验证，包括一个复杂的极端无监督域自适应（UDA）设置——该设置综合了真实世界干扰、合成噪声与遮挡等多重挑战，我们充分展示了该方法在应对域偏移问题上的强大能力，显著提升了姿态估计的准确性。

源 PDF