
摘要
手语是一种视觉语言,通过手势动作和非手势元素来传递信息。在手语识别与翻译任务中,现有大多数方法直接将RGB视频编码为隐藏表示。然而,RGB视频作为原始信号,存在大量视觉冗余,导致编码器难以捕捉对理解手语至关重要的关键信息。为缓解这一问题并更好地融入领域知识(如手部形状与身体动作),我们提出一种双流视觉编码器,包含两个独立的分支:一个用于建模原始视频,另一个用于建模由现成关键点检测器生成的关键点序列。为增强两路特征之间的交互,我们探索了多种技术,包括双向横向连接、带辅助监督的符号金字塔网络,以及帧级自蒸馏方法。由此构建的模型称为TwoStream-SLR,具备出色的手语识别(SLR)能力。通过简单地附加一个额外的翻译网络,TwoStream-SLR可进一步扩展为手语翻译(SLT)模型——TwoStream-SLT。实验结果表明,我们的TwoStream-SLR与TwoStream-SLT在多个数据集(包括Phoenix-2014、Phoenix-2014T和CSL-Daily)上的手语识别与翻译任务中均达到了当前最优性能。代码与模型已开源,地址为:https://github.com/FangyunWei/SLRT。
代码仓库
FangyunWei/SLRT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sign-language-recognition-on-csl-daily | TwoStream-SLR | Word Error Rate (WER): 25.3 |
| sign-language-recognition-on-rwth-phoenix | TwoStream-SLR | Word Error Rate (WER): 18.4 |
| sign-language-recognition-on-rwth-phoenix-1 | TwoStream-SLR | Word Error Rate (WER): 19.3 |
| sign-language-translation-on-csl-daily | TwoStream-SLT | BLEU-4: 25.79 |
| sign-language-translation-on-rwth-phoenix | TwoStream-SLT | BLEU-4: 28.95 |