8 个月前

计算机视觉

多任务学习

计算机视觉

Shaowei Liu* Hanwen Jiang* Jiarui Xu Sifei Liu Xiaolong Wang

摘要

从单张图像中估计三维手部和物体姿态是一个极具挑战性的问题：在交互过程中，手部和物体经常会发生自遮挡现象，而且由于人类也无法直接从单张图像中完美地标记出真实情况，因此三维注释数据非常稀缺。为了解决这些挑战，我们提出了一种基于半监督学习的统一框架来估计三维手部和物体姿态。我们构建了一个联合学习框架，在该框架中通过Transformer对手部和物体表示之间的显式上下文关系进行推理。除了利用单张图像中的有限三维注释外，我们还利用大规模手-物视频中的时空一致性作为生成伪标签的约束条件，以应用于半监督学习。我们的方法不仅在具有挑战性的现实世界数据集中提高了手部姿态估计的准确性，而且还显著改善了每实例真实标注较少的物体姿态估计。通过使用大规模多样化的视频进行训练，我们的模型在多个域外数据集上的泛化能力也得到了更好的提升。项目页面和代码：https://stevenlsw.github.io/Semi-Hand-Object

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多任务学习

计算机视觉

Shaowei Liu* Hanwen Jiang* Jiarui Xu Sifei Liu Xiaolong Wang

摘要

从单张图像中估计三维手部和物体姿态是一个极具挑战性的问题：在交互过程中，手部和物体经常会发生自遮挡现象，而且由于人类也无法直接从单张图像中完美地标记出真实情况，因此三维注释数据非常稀缺。为了解决这些挑战，我们提出了一种基于半监督学习的统一框架来估计三维手部和物体姿态。我们构建了一个联合学习框架，在该框架中通过Transformer对手部和物体表示之间的显式上下文关系进行推理。除了利用单张图像中的有限三维注释外，我们还利用大规模手-物视频中的时空一致性作为生成伪标签的约束条件，以应用于半监督学习。我们的方法不仅在具有挑战性的现实世界数据集中提高了手部姿态估计的准确性，而且还显著改善了每实例真实标注较少的物体姿态估计。通过使用大规模多样化的视频进行训练，我们的模型在多个域外数据集上的泛化能力也得到了更好的提升。项目页面和代码：https://stevenlsw.github.io/Semi-Hand-Object

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供