6 个月前

摘要

近年来，随着基于Transformer的模型（如BERT）的出现，英语问答（QA）系统的准确率得到了显著提升。这类模型首先在大规模英语语料库上以自监督方式预训练，随后再利用海量英语QA数据集（如SQuAD）进行微调。然而，对于大多数其他语言而言，尚缺乏同等规模的QA数据集。为此，多语言BERT模型（mBERT）常被用于将高资源语言的知识迁移到低资源语言中。由于mBERT在包含多种语言的海量文本语料上进行预训练，其通常能够为不同语言的词元（tokens）学习到语言无关的嵌入表示。然而，由于训练数据稀缺，直接针对低资源语言训练基于mBERT的QA系统仍面临挑战。在本研究中，我们通过将目标语言的QA样本翻译并音译至其他语言来扩充数据，并利用这些增强后的数据对已在英语上预训练的mBERT模型进行微调。在Google ChAII数据集上的实验表明，使用同语系语言的翻译数据进行微调可显著提升问答性能；而采用跨语系语言的翻译数据时，性能则出现下降。进一步地，我们发现在微调过程中引入翻译后的问题-上下文特征对之间的对比损失（contrastive loss），能够有效缓解跨语系翻译带来的性能下降，并实现小幅性能提升。本工作的代码已公开，可访问：https://github.com/gokulkarthik/mucot。

源 PDF