3 个月前

SignBERT+:面向手部模型的自监督预训练用于手语理解

SignBERT+:面向手部模型的自监督预训练用于手语理解

摘要

手部手势在手语表达中起着至关重要的作用。当前基于深度学习的手语理解(Sign Language Understanding, SLU)方法由于手语数据资源有限,容易出现过拟合问题,且模型可解释性较差。本文提出首个可自监督预训练的SignBERT+框架,并引入模型感知的手部先验机制。在该框架中,手部姿态被视作一种视觉标记(visual token),由现成的检测器提取获得。每个视觉标记均通过手势状态编码与时空位置编码进行嵌入。为充分挖掘现有手语数据资源的潜力,我们首先采用自监督学习建模其统计特性。为此,设计了多层次的掩码建模策略(关节级、帧级与片段级),以模拟常见的检测失败场景。结合上述掩码策略,我们进一步引入模型感知的手部先验,以更有效地捕捉序列中的层次化上下文信息。预训练完成后,我们精心设计了简洁而高效的下游任务预测头。为验证所提框架的有效性,我们在三个主要的SLU任务上进行了大量实验,涵盖孤立手语识别(Isolated SLR)、连续手语识别(Continuous SLR)以及手语翻译(SLT)。实验结果表明,所提方法显著提升了性能,达到了新的最先进水平,并取得了显著的性能增益。

基准测试

基准方法指标
sign-language-recognition-on-ms-aslSignBERT+
P-C Top-1 Accuracy: 70.77
P-I Top-1 Accuracy: 73.71
sign-language-recognition-on-rwth-phoenixSignBERT+
Word Error Rate (WER): 20
sign-language-recognition-on-rwth-phoenix-1SignBERT+
Word Error Rate (WER): 19.9
sign-language-recognition-on-wlaslSignBERT+
Top-1 Accuracy: 55.59
sign-language-translation-on-rwth-phoenixSignBERT+
BLEU-4: 25.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SignBERT+:面向手部模型的自监督预训练用于手语理解 | 论文 | HyperAI超神经