3 个月前

对极变换器

对极变换器

摘要

在同步且标定的多视角设置中,定位三维人体关节的一种常用方法包含两个步骤:(1)在每个视角上独立应用二维检测器,以实现关节在二维图像中的定位;(2)基于各视角的二维检测结果,执行鲁棒的三角测量,从而获得三维关节位置。然而,在第一步中,二维检测器仅依赖二维信息进行判断,难以有效处理那些在三维空间中可能更容易解决的复杂情况,例如遮挡和倾斜视角等问题。为克服这一局限,我们提出了一种可微分的“极线变换器”(epipolar transformer),使二维检测器能够利用三维感知特征,从而提升二维姿态估计的精度。其核心思想是:给定当前视角中的二维点位置 $ p $,首先在邻近视角中寻找其对应点 $ p' $,然后将 $ p' $ 处的特征与 $ p $ 处的特征进行融合,从而生成一个具有三维感知能力的特征表示。受立体匹配思想的启发,极线变换器利用极线约束与特征匹配机制,近似推断出 $ p' $ 位置处的特征。在 InterHand 和 Human3.6M 数据集上的实验表明,所提方法在多个基准上均取得了稳定且显著的性能提升。具体而言,在不使用任何外部数据的条件下,采用 ResNet-50 主干网络、输入图像尺寸为 256×256 的 Human3.6M 模型,相比当前最先进方法,平均关键点定位误差(MPJPE)降低了 4.23 mm,达到 26.9 mm,展现出优异的性能。

代码仓库

yihui-he/epipolar-transformers
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-hand-pose-estimation-on-interhand2-6mEpipolar Transformers
MPJPE: 4.91
3d-human-pose-estimation-on-human36mEpipolar Transformer+R152 384x384
Average MPJPE (mm): 19.0
Multi-View or Monocular: Multi-View
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mEpipolar Transformer+R50 256×256+RPSM
Average MPJPE (mm): 26.9
Multi-View or Monocular: Multi-View
Using 2D ground-truth joints: No

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对极变换器 | 论文 | HyperAI超神经