4 个月前

基于 BERT 的英印双语机器阅读理解

基于 BERT 的英印双语机器阅读理解

摘要

多语言机器阅读理解(MMC)是一种问答(QA)子任务,涉及从给定的文本片段中引用问题的答案,其中问题和文本片段可以使用不同的语言。最近发布的多语言版BERT(m-BERT),预训练了104种语言,在零样本和微调设置下均表现出色;然而,它尚未应用于英-印地语的MMC任务。因此,本文介绍了我们在零样本、单语(例如,印地语问题-印地语片段)和跨语言(例如,英语问题-印地语片段)微调设置下使用m-BERT进行MMC实验的结果。这些模型变体在所有可能的多语言设置中进行了评估,并与当前针对这些语言的最佳顺序问答系统的结果进行了比较。实验表明,经过微调后的m-BERT在先前模型使用的两个数据集的所有评估设置中均提高了性能,从而确立了基于m-BERT的MMC作为英-印地语的新最先进水平。我们还发布了最近发布的XQuAD数据集扩展版本上的实验结果,并建议将其作为未来研究的评估基准。

代码仓库

somiltg/bert
官方
tf
GitHub 中提及
somiltg/xquad
GitHub 中提及

基准测试

基准方法指标
multilingual-machine-comprehension-in-englishm-BERT augmented with Hindi QA
EM(QE-PE): 64.29
EM(QE-PH): 44.71
EM(QH-PE): 41.01
EM(QH-PH): 45.63
F1 (QE-PE): 76.51
F1 (QE-PH): 57.31
F1(QH-PE): 51.04
F1(QH-PH): 59.80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于 BERT 的英印双语机器阅读理解 | 论文 | HyperAI超神经