7 个月前

计算机视觉

计算机视觉

Cewu Lu; Ranjay Krishna; Michael Bernstein; Li Fei-Fei

摘要

视觉关系捕捉了图像中对象对之间的多种交互（例如，“人骑自行车”和“人推自行车”）。因此，可能的关系集合非常庞大，难以为所有可能的关系获取足够的训练样本。由于这一限制，以往关于视觉关系检测的研究主要集中在预测少数几种关系上。尽管大多数关系出现频率较低，但它们的对象（如“人”和“自行车”）以及谓词（如“骑”和“推”）单独出现的频率较高。我们提出了一种模型，利用这一见解分别训练对象和谓词的视觉模型，然后将它们组合起来以预测每张图像中的多个关系。通过利用语义词嵌入提供的语言先验来微调预测关系的可能性，我们的模型在先前工作的基础上得到了改进。该模型可以从少量示例中扩展到预测数千种类型的关系。此外，我们还通过边界框在图像中定位预测关系中的对象。进一步研究表明，理解这些关系可以提高基于内容的图像检索效果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Cewu Lu; Ranjay Krishna; Michael Bernstein; Li Fei-Fei

摘要

视觉关系捕捉了图像中对象对之间的多种交互（例如，“人骑自行车”和“人推自行车”）。因此，可能的关系集合非常庞大，难以为所有可能的关系获取足够的训练样本。由于这一限制，以往关于视觉关系检测的研究主要集中在预测少数几种关系上。尽管大多数关系出现频率较低，但它们的对象（如“人”和“自行车”）以及谓词（如“骑”和“推”）单独出现的频率较高。我们提出了一种模型，利用这一见解分别训练对象和谓词的视觉模型，然后将它们组合起来以预测每张图像中的多个关系。通过利用语义词嵌入提供的语言先验来微调预测关系的可能性，我们的模型在先前工作的基础上得到了改进。该模型可以从少量示例中扩展到预测数千种类型的关系。此外，我们还通过边界框在图像中定位预测关系中的对象。进一步研究表明，理解这些关系可以提高基于内容的图像检索效果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供