6 个月前

摘要

手语是一种视觉语言，通过手势动作和非手势元素来传递信息。在手语识别与翻译任务中，现有大多数方法直接将RGB视频编码为隐藏表示。然而，RGB视频作为原始信号，存在大量视觉冗余，导致编码器难以捕捉对理解手语至关重要的关键信息。为缓解这一问题并更好地融入领域知识（如手部形状与身体动作），我们提出一种双流视觉编码器，包含两个独立的分支：一个用于建模原始视频，另一个用于建模由现成关键点检测器生成的关键点序列。为增强两路特征之间的交互，我们探索了多种技术，包括双向横向连接、带辅助监督的符号金字塔网络，以及帧级自蒸馏方法。由此构建的模型称为TwoStream-SLR，具备出色的手语识别（SLR）能力。通过简单地附加一个额外的翻译网络，TwoStream-SLR可进一步扩展为手语翻译（SLT）模型——TwoStream-SLT。实验结果表明，我们的TwoStream-SLR与TwoStream-SLT在多个数据集（包括Phoenix-2014、Phoenix-2014T和CSL-Daily）上的手语识别与翻译任务中均达到了当前最优性能。代码与模型已开源，地址为：https://github.com/FangyunWei/SLRT。

源 PDF