6 个月前

摘要

手部手势在手语表达中起着至关重要的作用。当前基于深度学习的手语理解（Sign Language Understanding, SLU）方法由于手语数据资源有限，容易出现过拟合问题，且模型可解释性较差。本文提出首个可自监督预训练的SignBERT+框架，并引入模型感知的手部先验机制。在该框架中，手部姿态被视作一种视觉标记（visual token），由现成的检测器提取获得。每个视觉标记均通过手势状态编码与时空位置编码进行嵌入。为充分挖掘现有手语数据资源的潜力，我们首先采用自监督学习建模其统计特性。为此，设计了多层次的掩码建模策略（关节级、帧级与片段级），以模拟常见的检测失败场景。结合上述掩码策略，我们进一步引入模型感知的手部先验，以更有效地捕捉序列中的层次化上下文信息。预训练完成后，我们精心设计了简洁而高效的下游任务预测头。为验证所提框架的有效性，我们在三个主要的SLU任务上进行了大量实验，涵盖孤立手语识别（Isolated SLR）、连续手语识别（Continuous SLR）以及手语翻译（SLT）。实验结果表明，所提方法显著提升了性能，达到了新的最先进水平，并取得了显著的性能增益。

源 PDF