3 个月前

批量Transformer:在批量中寻找注意力

批量Transformer:在批量中寻找注意力

摘要

面部表情识别(Facial Expression Recognition, FER)在计算机视觉领域受到广泛关注,尤其在人机交互等“自然场景”(in-the-wild)环境下。然而,FER图像常包含多种不确定性因素,如遮挡、低分辨率、姿态变化、光照变化以及主观判断偏差(部分表情标注与目标标签不一致),这些因素导致单张图像所含有效信息有限且可信度较低,从而显著影响FER任务的性能表现。为解决这一问题,本文提出一种批处理变换器(Batch Transformer, BT),其核心为所提出的类别批注意力模块(Class Batch Attention, CBA),该模块通过融合一个批次中多张图像所反映的特征信息,而非依赖单张图像的局部特征,实现对噪声数据的抗过拟合能力,并提取更具可信度的表达特征。此外,本文还引入多层级注意力机制(Multi-level Attention, MLA),以捕捉不同层级特征之间的相关性,防止模型过度拟合特定层级的局部特征。本文进一步构建了一种批处理变换器网络(Batch Transformer Network, BTN),整合上述创新模块。在多个主流FER基准数据集上的实验结果表明,所提出的BTN在各项指标上均持续优于当前最先进的方法,充分验证了其在面部表情识别任务中的有效性与潜力。代表性实验结果进一步展示了BTN在复杂真实场景下识别准确性和鲁棒性的显著提升。

基准测试

基准方法指标
facial-expression-recognition-on-affectnetBTN
Accuracy (7 emotion): 67.60
Accuracy (8 emotion): 64.29
facial-expression-recognition-on-raf-dbBTN
Avg. Accuracy: 87.3
Overall Accuracy: 92.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
批量Transformer:在批量中寻找注意力 | 论文 | HyperAI超神经