
摘要
在本研究中,我们致力于解决野外视频中的视觉情感识别问题。传统的仅依赖身体和面部特征提取的方法,在由于头部/身体朝向、低分辨率和光照不足导致上述情感信息来源不可获取的情况下,往往难以准确预测情感。为了缓解这一问题,我们提出利用场景特性和属性作为视觉上下文,将其纳入一个更广泛的情感识别框架中。时间片段网络(Temporal Segment Networks, TSN)构成了我们所提出的模型的主干部分。除了RGB输入模态外,我们还采用了密集光流(Optical Flow),通过一种直观的多流方法来更有效地编码运动信息。此外,我们将注意力转向基于骨架的学习,并利用以动作为中心的数据预训练空间-时间图卷积网络(Spatial-Temporal Graph Convolutional Network, ST-GCN),用于情感识别任务。我们在具有挑战性的Body Language Dataset(BoLD)上进行了广泛的实验,验证了我们的方法优于现有方法;通过恰当地将所有上述模块整合到一个网络集成中,我们成功地大幅超越了之前最佳的已发表识别分数。
代码仓库
GiannisPikoulis/FG2021-BoLD
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| emotion-recognition-in-context-on-bold | Pikoulis et al | AUC: 66.82 Average mAP: 19.29 |