3 个月前

FILTER:一种增强的跨语言语言理解融合方法

FILTER:一种增强的跨语言语言理解融合方法

摘要

大规模跨语言语言模型(LM),如mBERT、Unicoder和XLM,在跨语言表征学习方面已取得显著成果。然而,当应用于零样本跨语言迁移任务时,现有大多数方法仅使用单一语言的输入进行语言模型微调,未能充分利用不同语言之间固有的跨语言对齐关系,而这种对齐关系对多语言任务至关重要。本文提出FILTER,一种增强型融合方法,通过引入跨语言数据进行XLM的微调。具体而言,FILTER首先在浅层网络中独立编码源语言文本及其目标语言的翻译文本,随后在中间层执行跨语言融合,以提取多语言知识,最后进行进一步的语言特定编码。在推理阶段,模型基于目标语言的输入文本及其在源语言中的翻译进行预测。对于分类等简单任务,目标语言的翻译文本与源语言文本共享相同标签;然而,对于问答、命名实体识别(NER)和词性标注(POS tagging)等更复杂任务,这种共享标签的准确性会下降甚至不可用。为解决该问题,我们进一步提出一种基于自动生成的软伪标签的KL散度自教学损失函数,用于模型训练。大量实验表明,FILTER在两个具有挑战性的多语言多任务基准测试XTREME和XGLUE上均取得了新的最先进性能。

代码仓库

yuwfan/FILTER
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-cross-lingual-transfer-on-xtremeFILTER
Avg: 77.0
Question Answering: 68.5
Sentence Retrieval: 84.4
Sentence-pair Classification: 87.5
Structured Prediction: 71.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FILTER:一种增强的跨语言语言理解融合方法 | 论文 | HyperAI超神经