6 个月前

多模态表征

计算机视觉

Harman Singh Pengchuan Zhang Qifan Wang Mengjiao Wang Wenhan Xiong Jingfei Du Yu Chen

摘要

对比训练的视觉-语言模型在视觉与语言表征学习方面取得了显著进展，推动了多种下游多模态任务的最先进模型发展。然而，近期研究揭示了这类模型在对象、属性及关系的组合推理能力方面存在严重局限。场景图（scene graphs）作为一种有效手段，被广泛用于实现图像的组合性理解。场景图是图像的图结构语义表示，包含场景中的对象、其属性以及对象之间的相互关系。在本研究中，我们以文本解析出的场景图为图像场景图的代理，提出了一种图分解与增强框架，并设计了一种从粗到细的对比学习目标，实现不同复杂度句子与同一图像之间的对齐。此外，我们还提出了新颖的场景图空间负样本挖掘方法，以提升属性绑定与关系理解能力。通过大量实验验证，所提方法在多个近期提出的基准测试上显著提升了属性绑定、关系理解、系统性泛化能力以及生成能力（例如，系统性泛化性能相比强基线提升高达18%，关系理解能力提升16.5%），同时在各类通用多模态任务中实现了与CLIP相当或更优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Harman Singh Pengchuan Zhang Qifan Wang Mengjiao Wang Wenhan Xiong Jingfei Du Yu Chen

摘要

对比训练的视觉-语言模型在视觉与语言表征学习方面取得了显著进展，推动了多种下游多模态任务的最先进模型发展。然而，近期研究揭示了这类模型在对象、属性及关系的组合推理能力方面存在严重局限。场景图（scene graphs）作为一种有效手段，被广泛用于实现图像的组合性理解。场景图是图像的图结构语义表示，包含场景中的对象、其属性以及对象之间的相互关系。在本研究中，我们以文本解析出的场景图为图像场景图的代理，提出了一种图分解与增强框架，并设计了一种从粗到细的对比学习目标，实现不同复杂度句子与同一图像之间的对齐。此外，我们还提出了新颖的场景图空间负样本挖掘方法，以提升属性绑定与关系理解能力。通过大量实验验证，所提方法在多个近期提出的基准测试上显著提升了属性绑定、关系理解、系统性泛化能力以及生成能力（例如，系统性泛化性能相比强基线提升高达18%，关系理解能力提升16.5%），同时在各类通用多模态任务中实现了与CLIP相当或更优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供