4 个月前

TIPCB:一种简单但有效的基于部件的卷积基线模型用于文本辅助的人体搜索

TIPCB:一种简单但有效的基于部件的卷积基线模型用于文本辅助的人体搜索

摘要

基于文本的人搜索是图像检索领域的一个子任务,其目标是根据给定的文本描述检索目标人物的图像。两种模态之间的显著特征差异使得这一任务极具挑战性。许多现有方法试图通过局部对齐来解决这一问题,以实现细粒度级别的匹配。然而,大多数相关方法引入了额外的模型或复杂的训练和评估策略,这在实际场景中难以应用。为了促进实际应用,我们提出了一种简单而有效的端到端学习框架——TIPCB(即基于文本-图像局部卷积的基线模型)。首先,提出了一种新颖的双路径局部对齐网络结构,用于提取视觉和文本的局部表示,其中图像被水平分割,文本则进行自适应对齐。然后,我们提出了一种多阶段跨模态匹配策略,该策略从低级、局部和全局三个特征层次消除了模态差异。我们在广泛使用的基准数据集(CUHK-PEDES)上进行了大量实验,结果验证了我们的方法在Top-1、Top-5和Top-10指标上分别优于现有最先进方法3.69%、2.95%和2.31%。我们的代码已发布在https://github.com/OrangeYHChen/TIPCB。

代码仓库

OrangeYHChen/TIPCB
官方
pytorch

基准测试

基准方法指标
nlp-based-person-retrival-on-cuhk-pedesTIPCB
R@1: 63.63
R@10: 89.01
R@5: 82.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TIPCB:一种简单但有效的基于部件的卷积基线模型用于文本辅助的人体搜索 | 论文 | HyperAI超神经