3 个月前

基于STMC-Transformer的更优手语翻译

基于STMC-Transformer的更优手语翻译

摘要

手语翻译(Sign Language Translation, SLT)首先通过手语识别(Sign Language Recognition, SLR)系统从视频中提取手语词汇(glosses),随后由翻译系统基于这些手语词汇生成对应的口语语言文本。本文聚焦于翻译环节,提出了一种新型模型STMC-Transformer,在PHOENIX-Weather 2014T数据集的手语词汇到文本(gloss-to-text)和视频到文本(video-to-text)翻译任务上,分别超越当前最先进水平超过5和7个BLEU值。在ASLG-PC12语料库上,该模型的性能提升超过16个BLEU值。此外,本文还揭示了现有方法依赖手语词汇监督所存在的问题。实验表明,本研究所提出的STMC-Transformer在视频到文本翻译任务上的表现,优于基于真实手语词汇(Ground Truth glosses, GT glosses)的翻译结果。这一发现与以往认为GT手语词汇翻译构成SLT性能上限的观点相矛盾,进而表明手语词汇并非手语的高效表征方式。因此,本文建议未来的手语翻译研究应采用识别与翻译模型的端到端联合训练策略,或探索更为合理的手语标注方案。

代码仓库

kayoyin/transformer-slt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-translation-on-aslg-pc12-1Transformer Ens.
BLEU-4: 82.87
sign-language-translation-on-rwth-phoenixSTMC+Transformer (Ens)
BLEU-4: 25.40

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于STMC-Transformer的更优手语翻译 | 论文 | HyperAI超神经