6 个月前

摘要

本文提出了一种用于手语翻译的简单迁移学习基线方法。现有的手语数据集（如PHOENIX-2014T、CSL-Daily）仅包含约1万至2万对手语视频、词素标注（gloss）与对应文本，其规模比典型的口语翻译模型训练所需的平行语料小一个数量级，因此数据量成为训练高效手语翻译模型的主要瓶颈。为缓解这一问题，本文提出一种渐进式预训练策略：首先在包含大量外部监督信号的通用领域数据集上对模型进行预训练，再在特定领域数据集上进一步微调。具体而言，我们将手语到词素的视觉网络在人类动作的通用领域数据集以及手语到词素的特定领域数据集上进行预训练；同时，将词素到文本的翻译网络在多语言语料的通用领域数据集以及词素到文本的特定领域数据集上进行预训练。随后，通过一个名为“视觉-语言映射器”（visual-language mapper）的附加模块，将两个网络连接起来，对联合模型进行微调。该简单基线方法在两个手语翻译基准测试上均超越了此前的最先进结果，充分验证了迁移学习的有效性。由于其结构简洁且性能优异，该方法可作为未来相关研究的可靠基线。代码与模型已开源，地址为：https://github.com/FangyunWei/SLRT。

源 PDF