8 个月前

计算机视觉

多模态表征

计算机视觉

Zhi Hou Xiaojiang Peng Yu Qiao * Dacheng Tao

摘要

人-物交互（Human-Object Interaction, HOI）检测的目标是在图像中定位并推断人与物体之间的关系。这一任务具有挑战性，因为大量的可能的物体和动词组合形成了长尾分布。我们设计了一种深度视觉组合学习（Visual Compositional Learning, VCL）框架，该框架简单而高效，能够有效解决这一问题。VCL 首先将 HOI 表示分解为特定于物体和动词的特征，然后通过拼接这些分解后的特征在特征空间中生成新的交互样本。分解与组合的结合使得 VCL 能够在不同的 HOI 样本和图像之间共享物体和动词特征，并生成新的交互样本和新的 HOI 类型，从而大大缓解了长尾分布问题，有助于少样本或零样本的 HOI 检测。广泛的实验表明，所提出的 VCL 框架能够在 HICO-DET 和 V-COCO 数据集上有效提升 HOI 检测的泛化能力，并且在 HICO-DET 数据集上的表现优于最近的先进方法。代码可在 https://github.com/zhihou7/VCL 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Zhi Hou Xiaojiang Peng Yu Qiao * Dacheng Tao

摘要

人-物交互（Human-Object Interaction, HOI）检测的目标是在图像中定位并推断人与物体之间的关系。这一任务具有挑战性，因为大量的可能的物体和动词组合形成了长尾分布。我们设计了一种深度视觉组合学习（Visual Compositional Learning, VCL）框架，该框架简单而高效，能够有效解决这一问题。VCL 首先将 HOI 表示分解为特定于物体和动词的特征，然后通过拼接这些分解后的特征在特征空间中生成新的交互样本。分解与组合的结合使得 VCL 能够在不同的 HOI 样本和图像之间共享物体和动词特征，并生成新的交互样本和新的 HOI 类型，从而大大缓解了长尾分布问题，有助于少样本或零样本的 HOI 检测。广泛的实验表明，所提出的 VCL 框架能够在 HICO-DET 和 V-COCO 数据集上有效提升 HOI 检测的泛化能力，并且在 HICO-DET 数据集上的表现优于最近的先进方法。代码可在 https://github.com/zhihou7/VCL 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供