3 个月前

一种简单的多模态迁移学习基线用于手语翻译

一种简单的多模态迁移学习基线用于手语翻译

摘要

本文提出了一种用于手语翻译的简单迁移学习基线方法。现有的手语数据集(如PHOENIX-2014T、CSL-Daily)仅包含约1万至2万对手语视频、词素标注(gloss)与对应文本,其规模比典型的口语翻译模型训练所需的平行语料小一个数量级,因此数据量成为训练高效手语翻译模型的主要瓶颈。为缓解这一问题,本文提出一种渐进式预训练策略:首先在包含大量外部监督信号的通用领域数据集上对模型进行预训练,再在特定领域数据集上进一步微调。具体而言,我们将手语到词素的视觉网络在人类动作的通用领域数据集以及手语到词素的特定领域数据集上进行预训练;同时,将词素到文本的翻译网络在多语言语料的通用领域数据集以及词素到文本的特定领域数据集上进行预训练。随后,通过一个名为“视觉-语言映射器”(visual-language mapper)的附加模块,将两个网络连接起来,对联合模型进行微调。该简单基线方法在两个手语翻译基准测试上均超越了此前的最先进结果,充分验证了迁移学习的有效性。由于其结构简洁且性能优异,该方法可作为未来相关研究的可靠基线。代码与模型已开源,地址为:https://github.com/FangyunWei/SLRT。

代码仓库

rzhao-zhsq/cv-slt
pytorch
GitHub 中提及
edwardguil/MMTL
pytorch
GitHub 中提及
FangyunWei/SLRT
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-recognition-on-rwth-phoenix-1MMTLB
Word Error Rate (WER): 22.45
sign-language-translation-on-csl-dailyMMTLB
BLEU-4: 23.92

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种简单的多模态迁移学习基线用于手语翻译 | 论文 | HyperAI超神经