4 个月前

基于循环卷积神经网络利用外观和形状线索进行三维凝视估计

基于循环卷积神经网络利用外观和形状线索进行三维凝视估计

摘要

注视行为是社交信号处理和人机交互中重要的非语言线索。本文旨在解决从远程摄像头进行人员和头部姿态无关的三维注视估计问题,采用多模态递归卷积神经网络(CNN)来实现这一目标。我们提出将面部、眼区以及面部特征点作为独立流输入到卷积神经网络中,以估计静态图像中的注视方向。随后,通过将序列中所有帧学习到的特征输入到一个多对一的递归模块中,利用注视行为的动态特性来预测最后一帧的三维注视向量。我们的多模态静态解决方案在广泛的头部姿态和注视方向上进行了评估,在EYEDIAP数据集上相比现有最佳方法取得了14.6%的显著改进,当加入时间模态后,性能进一步提升了4%。

代码仓库

基准测试

基准方法指标
gaze-estimation-on-eyediap-floating-targetRecurrentGaze (Static)
Angular Error: 5.43
gaze-estimation-on-eyediap-floating-targetRecurrentGaze (Temporal)
Angular Error: 5.19
gaze-estimation-on-eyediap-screen-targetRecurrentGaze (Static)
Angular Error: 3.38
gaze-estimation-on-eyediap-screen-targetRecurrentGaze (Temporal)
Angular Error: 3.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于循环卷积神经网络利用外观和形状线索进行三维凝视估计 | 论文 | HyperAI超神经