3 个月前

基于Transformer方法的低资源语言问答模型构建:以土耳其语医学文本为例的案例研究

基于Transformer方法的低资源语言问答模型构建:以土耳其语医学文本为例的案例研究

摘要

本研究针对土耳其语这一低资源语言,采用基于Transformer的预训练语言模型,通过医学文本对模型进行微调,以实现问答(Question Answering, QA)任务。研究中使用了基于大规模土耳其语语料库构建的BERTurk预训练语言模型的不同变体进行QA任务。研究构建了一个医学土耳其语问答数据集,该数据集由土耳其维基百科内容及土耳其高等教育理事会论文中心收录的医学学位论文整理而成,共包含8200对问答样本,用于BERTurk模型的微调。模型性能通过精确匹配(Exact Match, EM)和F1分数进行评估。实验结果表明,BERTurk(大小写敏感,32k词表)模型的EM得分为51.097,F1得分为74.148;而BERTurk(大小写敏感,128k词表)模型的EM得分为55.121,F1得分为77.187。结果表明,预训练语言模型在低资源语言如土耳其语的问答任务中具有良好的应用潜力。本研究为土耳其语医学文本处理及自动问答任务奠定了重要基础,并为该领域的后续研究提供了有益启示。

基准测试

基准方法指标
question-answering-on-medturkquad-medicalBERTurk (cased, 128k)
Exact Match: 55.121
F1 Score: 77.187
question-answering-on-medturkquad-medicalBERTurk (cased, 32k)
Exact Match: 51.097
F1 Score: 74.148

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer方法的低资源语言问答模型构建:以土耳其语医学文本为例的案例研究 | 论文 | HyperAI超神经