3 个月前

跨模态数据增强在端到端手语翻译中的应用

跨模态数据增强在端到端手语翻译中的应用

摘要

端到端手语翻译(Sign Language Translation, SLT)旨在直接将手语视频转换为口语文本,而无需中间表示。由于手语视频与文本之间存在模态差异,且标注数据稀缺,该任务一直面临巨大挑战。受此影响,端到端手语翻译(即视频到文本)的输入与输出分布相较于词元到文本(gloss-to-text)的翻译方式,其表现效果相对较弱。为应对上述挑战,本文提出一种新颖的跨模态数据增强框架——XmDA(Cross-modality Data Augmentation),通过利用手语词元翻译模型生成的伪词元-文本对,将强大的词元到文本翻译能力迁移至端到端手语翻译(即视频到文本)任务中。具体而言,XmDA框架包含两个核心组件:跨模态混合(cross-modality mix-up)与跨模态知识蒸馏(cross-modality knowledge distillation)。前者显式促进手语视频特征与词元嵌入之间的对齐,以弥合模态间差距;后者则利用词元到文本教师模型生成的知识,指导口语文本的生成过程,提升生成质量。在两个广泛使用的手语翻译数据集PHOENIX-2014T和CSL-Daily上的实验结果表明,所提出的XmDA框架在各项指标上均显著且一致地优于基线模型。大量消融分析进一步验证了我们的核心观点:XmDA通过减小视频与文本之间的表征距离,有效提升了口语文本的生成能力,同时显著改善了低频词和长句的处理效果。

代码仓库

atrewin/signxmda
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sign-language-translation-on-csl-dailyXmDA
BLEU-4: 21.58

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨模态数据增强在端到端手语翻译中的应用 | 论文 | HyperAI超神经