6 个月前

摘要

区域学习（Region Learning, RL）与多标签学习（Multi-label Learning, ML）近年来在面部动作单元（Action Unit, AU）检测领域受到越来越多关注。由于动作单元通常仅在面部稀疏区域激活，区域学习旨在识别这些关键区域，以提升检测的特异性。另一方面，大量统计证据表明动作单元之间存在显著相关性，因此多标签学习成为建模该检测任务的自然选择。本文提出一种统一的深度网络——深度区域与多标签学习（Deep Region and Multi-label Learning, DRML），能够同时解决上述两个问题。DRML中的一个关键创新是引入了一种新型区域层（region layer），该层通过前向传播函数自动诱导出重要的面部区域，强制网络学习到的权重能够捕捉面部的结构信息。该区域层在设计上介于局部连接层（即每个像素使用独立的卷积核）与传统卷积层（即在整个图像上共享卷积核）之间，提供了一种更具灵活性的替代方案。与以往研究中交替处理区域学习与多标签学习的方式不同，DRML从架构上同时建模两个问题，使得这两个看似无关的任务能够更直接地相互作用与协同优化。整个网络为端到端可训练结构，能够自动学习对局部区域内在变化具有鲁棒性的特征表示。在BP4D与DISFA两个基准数据集上的实验结果表明，相较于现有方法，DRML在跨数据集及单数据集内部均取得了最高的平均F1分数与AUC值，验证了其优越的性能。

源 PDF