HyperAIHyperAI

Command Palette

Search for a command to run...

C2T-Net:面向行人属性识别的通道感知交叉融合Transformer风格网络

Ba Hung Ngo Thinh V. Le Doanh C. Bui

摘要

行人属性识别(Pedestrian Attribute Recognition, PAR)在诸多安全应用(如监控系统)中具有重要实践意义,但同时也面临巨大挑战。在UPAR挑战赛的背景下,本文提出了一种通道感知的跨融合Transformer结构网络——C2T-Net(Channel-Aware Cross-Fused Transformer-Style Networks)。该网络有效融合了两种强大的Transformer架构:Swin Transformer(SwinT)与一种定制化的原始视觉Transformer(EVA ViT)。通过这种设计,模型能够同时捕捉行人的局部细节与全局语义特征,从而实现更精确的属性识别。为更好地建模通道之间的复杂关系,本文在每个SwinT模块中引入了一种通道感知的自注意力机制。此外,通过跨融合策略整合两种Transformer结构的特征表示,使两者能够相互增强,充分挖掘彼此所包含的纹理细节信息。实验结果表明,所提模型在三个PAR基准数据集上均展现出优异性能:PA100K、PETA以及UPAR2024私有测试集。在PA100K数据集上,本方法在不依赖任何预训练技术的模型中达到了当前最优水平;在PETA数据集上,性能与现有顶尖模型相当,保持了较强的竞争力。尤为突出的是,在UPAR2024-Track-1测试集上,本模型取得了第二名的优异成绩。相关源代码已开源,地址为:https://github.com/caodoanh2001/upar_challenge


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
C2T-Net:面向行人属性识别的通道感知交叉融合Transformer风格网络 | 论文 | HyperAI超神经