7 个月前

计算机视觉

多模态表征

计算机视觉

Hanwang Zhang; Zawlin Kyaw; Shih-Fu Chang; Tat-Seng Chua

摘要

视觉关系，如“人骑自行车”和“自行车在汽车旁边”，为图像提供了全面的场景理解，并已在连接计算机视觉和自然语言方面展现出巨大的实用性。然而，由于建模主语-谓语-宾语关系三元组的组合复杂性极具挑战性，目前对视觉关系的定位和预测研究甚少。受到知识库中关系表示学习以及卷积对象检测网络最新进展的启发，我们提出了一种用于视觉关系检测的视觉翻译嵌入网络（VTransE）。VTransE 将对象置于一个低维的关系空间中，在该空间中，关系可以被建模为简单的向量平移，即主语 + 谓语 ≈ 宾语。我们设计了一种新的特征提取层，该层以全卷积的方式支持对象-关系知识迁移，并能够在单次前向/后向传递中完成训练和推理。据我们所知，VTransE 是首个端到端的关系检测网络。我们在两个大规模数据集上展示了 VTransE 的有效性：Visual Relationship 和 Visual Genome 数据集。值得注意的是，尽管 VTransE 是一个纯粹的视觉模型，它仍然能够与卢氏基于语言先验的多模态模型相媲美。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

多模态表征

计算机视觉

Hanwang Zhang; Zawlin Kyaw; Shih-Fu Chang; Tat-Seng Chua

摘要

视觉关系，如“人骑自行车”和“自行车在汽车旁边”，为图像提供了全面的场景理解，并已在连接计算机视觉和自然语言方面展现出巨大的实用性。然而，由于建模主语-谓语-宾语关系三元组的组合复杂性极具挑战性，目前对视觉关系的定位和预测研究甚少。受到知识库中关系表示学习以及卷积对象检测网络最新进展的启发，我们提出了一种用于视觉关系检测的视觉翻译嵌入网络（VTransE）。VTransE 将对象置于一个低维的关系空间中，在该空间中，关系可以被建模为简单的向量平移，即主语 + 谓语 ≈ 宾语。我们设计了一种新的特征提取层，该层以全卷积的方式支持对象-关系知识迁移，并能够在单次前向/后向传递中完成训练和推理。据我们所知，VTransE 是首个端到端的关系检测网络。我们在两个大规模数据集上展示了 VTransE 的有效性：Visual Relationship 和 Visual Genome 数据集。值得注意的是，尽管 VTransE 是一个纯粹的视觉模型，它仍然能够与卢氏基于语言先验的多模态模型相媲美。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供