3 个月前

MuCoT:面向低资源语言问答任务的多语言对比训练

MuCoT:面向低资源语言问答任务的多语言对比训练

摘要

近年来,随着基于Transformer的模型(如BERT)的出现,英语问答(QA)系统的准确率得到了显著提升。这类模型首先在大规模英语语料库上以自监督方式预训练,随后再利用海量英语QA数据集(如SQuAD)进行微调。然而,对于大多数其他语言而言,尚缺乏同等规模的QA数据集。为此,多语言BERT模型(mBERT)常被用于将高资源语言的知识迁移到低资源语言中。由于mBERT在包含多种语言的海量文本语料上进行预训练,其通常能够为不同语言的词元(tokens)学习到语言无关的嵌入表示。然而,由于训练数据稀缺,直接针对低资源语言训练基于mBERT的QA系统仍面临挑战。在本研究中,我们通过将目标语言的QA样本翻译并音译至其他语言来扩充数据,并利用这些增强后的数据对已在英语上预训练的mBERT模型进行微调。在Google ChAII数据集上的实验表明,使用同语系语言的翻译数据进行微调可显著提升问答性能;而采用跨语系语言的翻译数据时,性能则出现下降。进一步地,我们发现在微调过程中引入翻译后的问题-上下文特征对之间的对比损失(contrastive loss),能够有效缓解跨语系翻译带来的性能下降,并实现小幅性能提升。本工作的代码已公开,可访问:https://github.com/gokulkarthik/mucot。

代码仓库

gokulkarthik/mucot
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-chaii-hindi-and-tamilMuCoT
Jaccard: 0.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MuCoT:面向低资源语言问答任务的多语言对比训练 | 论文 | HyperAI超神经