6 个月前

摘要

实现手语翻译（Sign Language Translation, SLT）的自动化是一项具有挑战性的现实应用。尽管该领域具有重要的社会意义，但相关研究进展仍然较为有限。关键问题在于，现有表现良好的方法通常依赖于难以获取的手语词素（gloss）序列真值数据。本文提出一种端到端的SLT模型，有效缓解了对这类标注数据的依赖：该模型无需显式使用词素序列，仅需文本真值作为监督信号。这与现有端到端模型形成鲜明对比——后者通常在中间模型阶段引入词素序列作为识别模态，或将其作为与SLT模型联合训练的并行输出。本文提出的模型基于Transformer架构，并引入了一类新型网络层，主要包括以下三个创新：（i）采用局部胜者为王（Local Winner-Takes-All, LWTA）层结合随机胜者采样机制，替代传统ReLU激活函数；（ii）引入基于变分推断估计后验分布的随机权重机制；（iii）在推理阶段采用一种权重压缩技术，利用估计的后验方差实现大规模、近乎无损的模型压缩。实验结果表明，该方法在PHOENIX 2014T基准测试上达到了当前最优的BLEU-4得分，且在训练过程中完全未使用词素序列信息，同时模型内存占用减少超过70%。这一成果为无需依赖复杂词素标注的高效、轻量化手语翻译系统提供了新的技术路径。

源 PDF