4 个月前

BioBERT:一种用于生物医学文本挖掘的预训练生物医学语言表示模型

BioBERT:一种用于生物医学文本挖掘的预训练生物医学语言表示模型

摘要

随着生物医学文献数量的迅速增长,生物医学文本挖掘变得越来越重要。随着自然语言处理(NLP)的进步,从生物医学文献中提取有价值的信息在研究人员中变得越来越受欢迎,而深度学习则推动了高效生物医学文本挖掘模型的发展。然而,直接将NLP领域的进展应用于生物医学文本挖掘通常会因普通领域语料库与生物医学语料库之间的词汇分布差异而产生不令人满意的结果。本文研究了最近引入的预训练语言模型BERT如何适应生物医学语料库。我们介绍了BioBERT(用于生物医学文本挖掘的双向编码器表示模型),这是一种基于大规模生物医学语料库预训练的领域特定语言表示模型。在几乎相同的任务架构下,当在生物医学语料库上进行预训练时,BioBERT在多种生物医学文本挖掘任务中显著优于BERT和之前的最先进模型。尽管BERT的表现与之前的最先进模型相当,但BioBERT在这三个具有代表性的生物医学文本挖掘任务中显著超越了它们:生物医学命名实体识别(F1分数提高0.62%)、生物医学关系抽取(F1分数提高2.80%)和生物医学问题回答(MRR提高12.24%)。我们的分析结果表明,在生物医学语料库上预训练BERT有助于其理解复杂的生物医学文本。我们已将BioBERT的预训练权重免费提供于https://github.com/naver/biobert-pretrained,并将用于微调BioBERT的源代码提供于https://github.com/dmis-lab/biobert。

代码仓库

jpablou/Matching-The-Blanks-Ths
pytorch
GitHub 中提及
naver/biobert-pretrained
官方
GitHub 中提及
phucdev/TL_Bio_RE
tf
GitHub 中提及
cypressd1999/FYP_2021
pytorch
GitHub 中提及
rahul-1996/KGraphs-QA
pytorch
GitHub 中提及
re-search/DocProduct
tf
GitHub 中提及
plkmo/BERT-Relation-Extraction
pytorch
GitHub 中提及
kuldeep7688/BioMedicalBertNer
pytorch
GitHub 中提及
ManasRMohanty/DS5500-capstone
pytorch
GitHub 中提及
ardakdemir/my_bert_ner
tf
GitHub 中提及
EmilyAlsentzer/clinicalBERT
tf
GitHub 中提及
charles9n/bert-sklearn
pytorch
GitHub 中提及
dmis-lab/biobert
官方
tf
GitHub 中提及
mocherson/aki_bert
pytorch
GitHub 中提及
hieudepchai/BERT_IE
pytorch
GitHub 中提及
dmis-lab/bern
tf
GitHub 中提及

基准测试

基准方法指标
drug-drug-interaction-extraction-on-ddiBioBERT
F1: 0.8088
Micro F1: 80.88
few-shot-learning-on-medconceptsqadmis-lab/biobert-v1.1
Accuracy: 25.458
named-entity-recognition-ner-on-jnlpbaBioBERT
F1: 77.59
named-entity-recognition-ner-on-ncbi-diseaseBioBERT
F1: 89.71
named-entity-recognition-on-species-800BioBERT
F1: 75.31
question-answering-on-medqa-usmleBioBERT (large)
Accuracy: 36.7
question-answering-on-medqa-usmleBioBERT (base)
Accuracy: 34.1
relation-extraction-on-chemprotBioBERT
F1: 76.46
representation-learning-on-scidocsBioBERT
Avg.: 58.8
zero-shot-learning-on-medconceptsqadmis-lab/biobert-v1.1
Accuracy: 26.151

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BioBERT:一种用于生物医学文本挖掘的预训练生物医学语言表示模型 | 论文 | HyperAI超神经