7 个月前

摘要

过去二十年来，众多研究者一直在致力于构建稳健的情绪识别系统。这类系统有望将人机交互提升至全新水平，通过分析用户的情绪状态，实现更加自然的反馈。然而，该领域的一个关键挑战在于模型泛化能力不足：当模型在某一数据集上训练并在另一数据集上评估时，其性能往往出现显著下降。尽管已有部分研究尝试解决该问题，但视觉模态的研究仍相对薄弱。为此，本文基于八个在采集条件、参与者外貌特征以及数据处理复杂度方面各不相同的语料库，开展了一项视觉跨语料库的系统性研究。我们提出了一种基于视觉的端到端情绪识别框架，该框架包含一个鲁棒的预训练主干网络（backbone model）和一个时序子系统，用于建模视频序列中多帧之间的时序依赖关系。此外，本文对主干模型的优缺点及错误模式进行了深入分析，充分验证了其出色的泛化能力。实验结果表明，该主干模型在AffectNet数据集上取得了66.4%的准确率，超越了当前所有最先进的方法。同时，在跨语料库实验中，CNN-LSTM模型在动态视觉数据集上也表现出良好的性能，其结果与当前最先进水平相当。为促进后续研究，我们已将主干模型及CNN-LSTM模型开源，相关代码和模型可于GitHub平台获取。

源 PDF 查看代码