
摘要
面部表情识别在数据集中面临一个挑战,即标记的重要特征与未标记的冗余特征混合在一起。本文中,我们引入了交叉相似性注意力(Cross Similarity Attention, CSA)机制,从图像对中挖掘更丰富的内在信息,克服了当视觉变换器(ViT)中的缩放点积注意力直接应用于计算两张不同图像之间的相似度时所遇到的局限性。基于CSA,我们通过多个分支之间的交互,在细粒度特征层面同时最小化类内差异并最大化类间差异。对比残差蒸馏技术被用于将交叉模块中学到的信息传递回基础网络。我们巧妙地设计了一个四分支中心对称网络,命名为四元组交叉相似性网络(Quadruplet Cross Similarity, QCS),该网络缓解了由交叉模块引起的梯度冲突,实现了平衡且稳定的训练。它能够在提取判别特征的同时隔离冗余特征。在训练过程中存在交叉注意力模块,而在推理阶段仅保留一个基础分支,因此不会增加推理时间。大量实验表明,我们提出的方法在多个面部表情识别数据集上达到了最先进的性能。
代码仓库
birdwcp/qcs
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| facial-expression-recognition-on-affectnet | QCS | Accuracy (7 emotion): 67.94 Accuracy (8 emotion): 64.4 |
| facial-expression-recognition-on-fer-1 | QCS | Accuracy: 91.85 |
| facial-expression-recognition-on-raf-db | QCS | Overall Accuracy: 93.02 |