6 个月前

自然语言处理

Kayo Yin Jesse Read

摘要

手语翻译（Sign Language Translation, SLT）首先通过手语识别（Sign Language Recognition, SLR）系统从视频中提取手语词汇（glosses），随后由翻译系统基于这些手语词汇生成对应的口语语言文本。本文聚焦于翻译环节，提出了一种新型模型STMC-Transformer，在PHOENIX-Weather 2014T数据集的手语词汇到文本（gloss-to-text）和视频到文本（video-to-text）翻译任务上，分别超越当前最先进水平超过5和7个BLEU值。在ASLG-PC12语料库上，该模型的性能提升超过16个BLEU值。此外，本文还揭示了现有方法依赖手语词汇监督所存在的问题。实验表明，本研究所提出的STMC-Transformer在视频到文本翻译任务上的表现，优于基于真实手语词汇（Ground Truth glosses, GT glosses）的翻译结果。这一发现与以往认为GT手语词汇翻译构成SLT性能上限的观点相矛盾，进而表明手语词汇并非手语的高效表征方式。因此，本文建议未来的手语翻译研究应采用识别与翻译模型的端到端联合训练策略，或探索更为合理的手语标注方案。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Kayo Yin Jesse Read

摘要

手语翻译（Sign Language Translation, SLT）首先通过手语识别（Sign Language Recognition, SLR）系统从视频中提取手语词汇（glosses），随后由翻译系统基于这些手语词汇生成对应的口语语言文本。本文聚焦于翻译环节，提出了一种新型模型STMC-Transformer，在PHOENIX-Weather 2014T数据集的手语词汇到文本（gloss-to-text）和视频到文本（video-to-text）翻译任务上，分别超越当前最先进水平超过5和7个BLEU值。在ASLG-PC12语料库上，该模型的性能提升超过16个BLEU值。此外，本文还揭示了现有方法依赖手语词汇监督所存在的问题。实验表明，本研究所提出的STMC-Transformer在视频到文本翻译任务上的表现，优于基于真实手语词汇（Ground Truth glosses, GT glosses）的翻译结果。这一发现与以往认为GT手语词汇翻译构成SLT性能上限的观点相矛盾，进而表明手语词汇并非手语的高效表征方式。因此，本文建议未来的手语翻译研究应采用识别与翻译模型的端到端联合训练策略，或探索更为合理的手语标注方案。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供