4 个月前

利用语义场景特征和多流卷积架构在基于上下文的方法中实现野外视频视觉情感识别

利用语义场景特征和多流卷积架构在基于上下文的方法中实现野外视频视觉情感识别

摘要

在本研究中,我们致力于解决野外视频中的视觉情感识别问题。传统的仅依赖身体和面部特征提取的方法,在由于头部/身体朝向、低分辨率和光照不足导致上述情感信息来源不可获取的情况下,往往难以准确预测情感。为了缓解这一问题,我们提出利用场景特性和属性作为视觉上下文,将其纳入一个更广泛的情感识别框架中。时间片段网络(Temporal Segment Networks, TSN)构成了我们所提出的模型的主干部分。除了RGB输入模态外,我们还采用了密集光流(Optical Flow),通过一种直观的多流方法来更有效地编码运动信息。此外,我们将注意力转向基于骨架的学习,并利用以动作为中心的数据预训练空间-时间图卷积网络(Spatial-Temporal Graph Convolutional Network, ST-GCN),用于情感识别任务。我们在具有挑战性的Body Language Dataset(BoLD)上进行了广泛的实验,验证了我们的方法优于现有方法;通过恰当地将所有上述模块整合到一个网络集成中,我们成功地大幅超越了之前最佳的已发表识别分数。

代码仓库

基准测试

基准方法指标
emotion-recognition-in-context-on-boldPikoulis et al
AUC: 66.82
Average mAP: 19.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用语义场景特征和多流卷积架构在基于上下文的方法中实现野外视频视觉情感识别 | 论文 | HyperAI超神经