摘要
本文分析了学生在在线学习环境中的行为特征。为此,提出了一种基于视频面部处理的新型数据处理流程。首先,采用人脸检测、跟踪与聚类技术,提取每位学生的面部序列。随后,利用一个高效的单神经网络对每一帧图像中的情绪特征进行提取。该网络在人脸身份识别任务上进行预训练,并基于AffectNet数据集中的静态图像,采用一种专门开发的鲁棒优化技术,进一步微调以实现面部表情识别。实验结果表明,所提取的面部特征可实现对学生注意力水平(从不专注到高度专注)的快速同步预测、个体情绪状态(如快乐、悲伤等)的识别,以及群体层面情感倾向(积极、中性或消极)的判断。该模型可在学生个人移动设备上实现实时视频处理,无需将面部视频上传至远程服务器或教师计算机。此外,本文还展示了通过保存所有学生在不同情绪状态和注意力水平下的短片段视频,自动生成课程总结的可行性。在EmotiW(野外情绪识别挑战赛)数据集上的实验研究表明,所提出的网络模型在性能上显著优于现有的单一模型。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| facial-expression-recognition-on-affectnet | Multi-task EfficientNet-B2 | Accuracy (7 emotion): 66.29 Accuracy (8 emotion): 63.03 |