HyperAIHyperAI

Command Palette

Search for a command to run...

基于上下文的全尺度表示下的非局部对齐用于文本行人搜索

Chenyang Gao extsuperscript1,*, Guanyu Cai extsuperscript2, Xinyang Jiang extsuperscript2,†, Feng Zheng extsuperscript1, Jun Zhang extsuperscript2, Yifei Gong extsuperscript2, Pai Peng extsuperscript2, Xiaowei Guo extsuperscript2, Xing Sun extsuperscript2

摘要

基于文本的人搜索旨在通过描述目标人物的句子在图像库中检索该人物。这一任务极具挑战性,因为模态差距使得有效提取判别特征变得更加困难。此外,行人图像和描述之间的类间差异较小,因此需要全面的信息来对齐不同尺度下的视觉和文本线索。现有的大多数方法仅考虑单个尺度(例如,仅全局尺度或仅局部尺度)内图像和文本之间的局部对齐,然后分别在每个尺度上构建对齐关系。为了解决这一问题,我们提出了一种能够在所有尺度上自适应地对齐图像和文本特征的方法,称为NAFS(即全尺度表示的非局部对齐)。首先,提出了一种新颖的阶梯网络结构,以更好地提取具有局部性的全尺度图像特征。其次,提出了带有局部约束注意力机制的BERT模型,以获得不同尺度下描述的表示。然后,不同于分别在每个尺度上对齐特征,我们应用了一种新颖的情境非局部注意力机制,同时发现所有尺度上的潜在对齐关系。实验结果表明,在基于文本的人搜索数据集上,我们的方法在Top-1准确率方面比现有最佳方法提高了5.53%,在Top-5准确率方面提高了5.35%。代码已发布在 https://github.com/TencentYoutuResearch/PersonReID-NAFS


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供