HyperAIHyperAI

Command Palette

Search for a command to run...

SignBERT+:面向手部模型的自监督预训练用于手语理解

Hezhen Hu Weichao Zhao Wengang Zhou Houqiang Li

摘要

手部手势在手语表达中起着至关重要的作用。当前基于深度学习的手语理解(Sign Language Understanding, SLU)方法由于手语数据资源有限,容易出现过拟合问题,且模型可解释性较差。本文提出首个可自监督预训练的SignBERT+框架,并引入模型感知的手部先验机制。在该框架中,手部姿态被视作一种视觉标记(visual token),由现成的检测器提取获得。每个视觉标记均通过手势状态编码与时空位置编码进行嵌入。为充分挖掘现有手语数据资源的潜力,我们首先采用自监督学习建模其统计特性。为此,设计了多层次的掩码建模策略(关节级、帧级与片段级),以模拟常见的检测失败场景。结合上述掩码策略,我们进一步引入模型感知的手部先验,以更有效地捕捉序列中的层次化上下文信息。预训练完成后,我们精心设计了简洁而高效的下游任务预测头。为验证所提框架的有效性,我们在三个主要的SLU任务上进行了大量实验,涵盖孤立手语识别(Isolated SLR)、连续手语识别(Continuous SLR)以及手语翻译(SLT)。实验结果表明,所提方法显著提升了性能,达到了新的最先进水平,并取得了显著的性能增益。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供