8 个月前

多模态表征

计算机视觉

计算机视觉

Yuhao Chen Guoqing Zhang Yujiang Lu Zhenxing Wang Yuhui Zheng Ruili Wang

摘要

基于文本的人搜索是图像检索领域的一个子任务，其目标是根据给定的文本描述检索目标人物的图像。两种模态之间的显著特征差异使得这一任务极具挑战性。许多现有方法试图通过局部对齐来解决这一问题，以实现细粒度级别的匹配。然而，大多数相关方法引入了额外的模型或复杂的训练和评估策略，这在实际场景中难以应用。为了促进实际应用，我们提出了一种简单而有效的端到端学习框架——TIPCB（即基于文本-图像局部卷积的基线模型）。首先，提出了一种新颖的双路径局部对齐网络结构，用于提取视觉和文本的局部表示，其中图像被水平分割，文本则进行自适应对齐。然后，我们提出了一种多阶段跨模态匹配策略，该策略从低级、局部和全局三个特征层次消除了模态差异。我们在广泛使用的基准数据集（CUHK-PEDES）上进行了大量实验，结果验证了我们的方法在Top-1、Top-5和Top-10指标上分别优于现有最先进方法3.69%、2.95%和2.31%。我们的代码已发布在https://github.com/OrangeYHChen/TIPCB。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

计算机视觉

Yuhao Chen Guoqing Zhang Yujiang Lu Zhenxing Wang Yuhui Zheng Ruili Wang

摘要

基于文本的人搜索是图像检索领域的一个子任务，其目标是根据给定的文本描述检索目标人物的图像。两种模态之间的显著特征差异使得这一任务极具挑战性。许多现有方法试图通过局部对齐来解决这一问题，以实现细粒度级别的匹配。然而，大多数相关方法引入了额外的模型或复杂的训练和评估策略，这在实际场景中难以应用。为了促进实际应用，我们提出了一种简单而有效的端到端学习框架——TIPCB（即基于文本-图像局部卷积的基线模型）。首先，提出了一种新颖的双路径局部对齐网络结构，用于提取视觉和文本的局部表示，其中图像被水平分割，文本则进行自适应对齐。然后，我们提出了一种多阶段跨模态匹配策略，该策略从低级、局部和全局三个特征层次消除了模态差异。我们在广泛使用的基准数据集（CUHK-PEDES）上进行了大量实验，结果验证了我们的方法在Top-1、Top-5和Top-10指标上分别优于现有最先进方法3.69%、2.95%和2.31%。我们的代码已发布在https://github.com/OrangeYHChen/TIPCB。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供