
摘要
注视行为是社交信号处理和人机交互中重要的非语言线索。本文旨在解决从远程摄像头进行人员和头部姿态无关的三维注视估计问题,采用多模态递归卷积神经网络(CNN)来实现这一目标。我们提出将面部、眼区以及面部特征点作为独立流输入到卷积神经网络中,以估计静态图像中的注视方向。随后,通过将序列中所有帧学习到的特征输入到一个多对一的递归模块中,利用注视行为的动态特性来预测最后一帧的三维注视向量。我们的多模态静态解决方案在广泛的头部姿态和注视方向上进行了评估,在EYEDIAP数据集上相比现有最佳方法取得了14.6%的显著改进,当加入时间模态后,性能进一步提升了4%。
代码仓库
crisie/CRNN-Gaze
tf
GitHub 中提及
crisie/RecurrentGaze
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| gaze-estimation-on-eyediap-floating-target | RecurrentGaze (Static) | Angular Error: 5.43 |
| gaze-estimation-on-eyediap-floating-target | RecurrentGaze (Temporal) | Angular Error: 5.19 |
| gaze-estimation-on-eyediap-screen-target | RecurrentGaze (Static) | Angular Error: 3.38 |
| gaze-estimation-on-eyediap-screen-target | RecurrentGaze (Temporal) | Angular Error: 3.4 |