3 个月前

基于相关性网络的连续手语识别

基于相关性网络的连续手语识别

摘要

人体运动轨迹是视频中识别动作的关键线索。在手语视频中,这种身体轨迹主要通过连续帧间手部与面部的运动来体现。然而,当前连续手语识别(Continuous Sign Language Recognition, CSLR)方法通常独立处理每一帧,难以有效捕捉跨帧的运动轨迹,从而限制了手语的准确识别。为克服这一局限,本文提出相关性网络(CorrNet),显式地建模并利用跨帧的人体运动轨迹以实现手语识别。具体而言,首先设计了一种相关性模块,用于动态计算当前帧与相邻帧之间各空间块的关联图,以识别所有空间区域的运动轨迹;随后引入一个识别模块,动态强化这些相关性图中的人体轨迹信息。由此生成的特征能够全面感知局部时间维度上的运动模式,从而更准确地识别手语。得益于对身体运动轨迹的特殊关注,CorrNet在四个大规模数据集(PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL)上均取得了新的最先进识别精度。与以往时空推理方法的全面对比进一步验证了CorrNet的有效性。可视化结果也清晰展示了CorrNet在增强相邻帧间人体轨迹信息方面的显著作用。

代码仓库

hulianyuyy/adaptsign
pytorch
GitHub 中提及
hulianyuyy/corrnet
官方
pytorch
GitHub 中提及
hulianyuyy/corrnet_plus
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-recognition-on-csl-dailyCorrNet
Word Error Rate (WER): 30.1
sign-language-recognition-on-rwth-phoenixCorrNet + VAC + SMKD
Word Error Rate (WER): 19.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于相关性网络的连续手语识别 | 论文 | HyperAI超神经