3 个月前

TCNet:基于轨迹与相关区域的连续手语识别

TCNet:基于轨迹与相关区域的连续手语识别

摘要

连续手语识别(Continuous Sign Language Recognition, CSLR)面临的一个关键挑战是如何从视频输入中高效捕捉随时间演进的长距离空间交互关系。为应对这一挑战,我们提出TCNet,一种混合神经网络架构,能够有效建模轨迹(Trajectories)与相关区域(Correlated regions)中的时空信息。TCNet的轨迹模块将视频帧转换为由连续视觉标记(visual tokens)构成的对齐轨迹。此外,针对每个查询标记(query token),网络在轨迹上学习自注意力机制,从而能够聚焦于特定运动区域中细粒度的时空模式,例如手指的细微运动。TCNet的关联模块引入了一种新颖的动态注意力机制,可有效过滤无关帧区域,并为每个查询标记动态地从相关区域分配键值标记(key-value tokens)。上述两项创新显著降低了计算开销与内存占用。我们在四个大规模数据集——PHOENIX14、PHOENIX14-T、CSL和CSL-Daily上进行了实验,结果表明,TCNet在各项任务中均持续达到当前最优性能。例如,在PHOENIX14和PHOENIX14-T数据集上,相比先前的最先进方法,我们的模型分别将词错误率(Word Error Rate)降低了1.5%和1.0%。

代码仓库

hotfinda/tcnet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-recognition-on-csl-dailyTCNet
Word Error Rate (WER): 29.3
sign-language-recognition-on-rwth-phoenixTCNet
Word Error Rate (WER): 18.9
sign-language-recognition-on-rwth-phoenix-1TCNet
Word Error Rate (WER): 19.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TCNet:基于轨迹与相关区域的连续手语识别 | 论文 | HyperAI超神经