3 个月前

对极变换器

Yihui He Rui Yan Katerina Fragkiadaki Shoou-I Yu

摘要

在同步且标定的多视角设置中，定位三维人体关节的一种常用方法包含两个步骤：（1）在每个视角上独立应用二维检测器，以实现关节在二维图像中的定位；（2）基于各视角的二维检测结果，执行鲁棒的三角测量，从而获得三维关节位置。然而，在第一步中，二维检测器仅依赖二维信息进行判断，难以有效处理那些在三维空间中可能更容易解决的复杂情况，例如遮挡和倾斜视角等问题。为克服这一局限，我们提出了一种可微分的“极线变换器”（epipolar transformer），使二维检测器能够利用三维感知特征，从而提升二维姿态估计的精度。其核心思想是：给定当前视角中的二维点位置 $ p $，首先在邻近视角中寻找其对应点 $ p' $，然后将 $ p' $ 处的特征与 $ p $ 处的特征进行融合，从而生成一个具有三维感知能力的特征表示。受立体匹配思想的启发，极线变换器利用极线约束与特征匹配机制，近似推断出 $ p' $ 位置处的特征。在 InterHand 和 Human3.6M 数据集上的实验表明，所提方法在多个基准上均取得了稳定且显著的性能提升。具体而言，在不使用任何外部数据的条件下，采用 ResNet-50 主干网络、输入图像尺寸为 256×256 的 Human3.6M 模型，相比当前最先进方法，平均关键点定位误差（MPJPE）降低了 4.23 mm，达到 26.9 mm，展现出优异的性能。

代码仓库

yihui-he/epipolar-transformers

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
3d-hand-pose-estimation-on-interhand2-6m	Epipolar Transformers	MPJPE: 4.91
3d-human-pose-estimation-on-human36m	Epipolar Transformer+R152 384x384	Average MPJPE (mm): 19.0 Multi-View or Monocular: Multi-View Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36m	Epipolar Transformer+R50 256×256+RPSM	Average MPJPE (mm): 26.9 Multi-View or Monocular: Multi-View Using 2D ground-truth joints: No

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供