6 个月前

摘要

大规模跨语言语言模型（LM），如mBERT、Unicoder和XLM，在跨语言表征学习方面已取得显著成果。然而，当应用于零样本跨语言迁移任务时，现有大多数方法仅使用单一语言的输入进行语言模型微调，未能充分利用不同语言之间固有的跨语言对齐关系，而这种对齐关系对多语言任务至关重要。本文提出FILTER，一种增强型融合方法，通过引入跨语言数据进行XLM的微调。具体而言，FILTER首先在浅层网络中独立编码源语言文本及其目标语言的翻译文本，随后在中间层执行跨语言融合，以提取多语言知识，最后进行进一步的语言特定编码。在推理阶段，模型基于目标语言的输入文本及其在源语言中的翻译进行预测。对于分类等简单任务，目标语言的翻译文本与源语言文本共享相同标签；然而，对于问答、命名实体识别（NER）和词性标注（POS tagging）等更复杂任务，这种共享标签的准确性会下降甚至不可用。为解决该问题，我们进一步提出一种基于自动生成的软伪标签的KL散度自教学损失函数，用于模型训练。大量实验表明，FILTER在两个具有挑战性的多语言多任务基准测试XTREME和XGLUE上均取得了新的最先进性能。

源 PDF