7 个月前

摘要

行人属性识别（Pedestrian Attribute Recognition, PAR）在诸多安全应用（如监控系统）中具有重要实践意义，但同时也面临巨大挑战。在UPAR挑战赛的背景下，本文提出了一种通道感知的跨融合Transformer结构网络——C2T-Net（Channel-Aware Cross-Fused Transformer-Style Networks）。该网络有效融合了两种强大的Transformer架构：Swin Transformer（SwinT）与一种定制化的原始视觉Transformer（EVA ViT）。通过这种设计，模型能够同时捕捉行人的局部细节与全局语义特征，从而实现更精确的属性识别。为更好地建模通道之间的复杂关系，本文在每个SwinT模块中引入了一种通道感知的自注意力机制。此外，通过跨融合策略整合两种Transformer结构的特征表示，使两者能够相互增强，充分挖掘彼此所包含的纹理细节信息。实验结果表明，所提模型在三个PAR基准数据集上均展现出优异性能：PA100K、PETA以及UPAR2024私有测试集。在PA100K数据集上，本方法在不依赖任何预训练技术的模型中达到了当前最优水平；在PETA数据集上，性能与现有顶尖模型相当，保持了较强的竞争力。尤为突出的是，在UPAR2024-Track-1测试集上，本模型取得了第二名的优异成绩。相关源代码已开源，地址为：https://github.com/caodoanh2001/upar_challenge。

源 PDF 查看代码