3 个月前

具有线性竞争单元的随机Transformer网络:在端到端SL翻译中的应用

具有线性竞争单元的随机Transformer网络:在端到端SL翻译中的应用

摘要

实现手语翻译(Sign Language Translation, SLT)的自动化是一项具有挑战性的现实应用。尽管该领域具有重要的社会意义,但相关研究进展仍然较为有限。关键问题在于,现有表现良好的方法通常依赖于难以获取的手语词素(gloss)序列真值数据。本文提出一种端到端的SLT模型,有效缓解了对这类标注数据的依赖:该模型无需显式使用词素序列,仅需文本真值作为监督信号。这与现有端到端模型形成鲜明对比——后者通常在中间模型阶段引入词素序列作为识别模态,或将其作为与SLT模型联合训练的并行输出。 本文提出的模型基于Transformer架构,并引入了一类新型网络层,主要包括以下三个创新:(i)采用局部胜者为王(Local Winner-Takes-All, LWTA)层结合随机胜者采样机制,替代传统ReLU激活函数;(ii)引入基于变分推断估计后验分布的随机权重机制;(iii)在推理阶段采用一种权重压缩技术,利用估计的后验方差实现大规模、近乎无损的模型压缩。 实验结果表明,该方法在PHOENIX 2014T基准测试上达到了当前最优的BLEU-4得分,且在训练过程中完全未使用词素序列信息,同时模型内存占用减少超过70%。这一成果为无需依赖复杂词素标注的高效、轻量化手语翻译系统提供了新的技术路径。

基准测试

基准方法指标
sign-language-translation-on-rwth-phoenixS2T Stochastic Transformer (Ens)
BLEU-4: 25.59

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
具有线性竞争单元的随机Transformer网络:在端到端SL翻译中的应用 | 论文 | HyperAI超神经