
摘要
受通用语言理解评估基准(General Language Understanding Evaluation, GLUE)成功的启发,我们引入了生物医学语言理解评估(Biomedical Language Understanding Evaluation, BLUE)基准,以促进生物医学领域预训练语言表示的研究发展。该基准包括五个任务,涵盖十个数据集,涉及生物医学和临床文本的不同规模和难度。我们还基于BERT和ELMo评估了几种基线模型,并发现使用PubMed摘要和MIMIC-III临床笔记预训练的BERT模型取得了最佳结果。我们已将数据集、预训练模型及代码公开发布在https://github.com/ncbi-nlp/BLUE_Benchmark。
代码仓库
bigscience-workshop/biomedical
GitHub 中提及
gmpoli/electramed
tf
GitHub 中提及
ncbi-nlp/BLUE_Benchmark
官方
GitHub 中提及
ncbi-nlp/NCBI_BERT
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-classification-on-hoc | NCBI_BERT(large) (P) | F1: 87.3 |
| medical-named-entity-recognition-on-share | NCBI_BERT(base) (P+M) | F1: 0.792 |
| medical-relation-extraction-on-ddi-extraction | NCBI_BERT(large) (P) | F1: 79.9 |
| named-entity-recognition-on-bc5cdr-chemical | NCBI_BERT(base) (P) | F1: 93.5 |
| named-entity-recognition-on-bc5cdr-disease | NCBI_BERT(base) (P) | F1: 86.6 |
| natural-language-inference-on-mednli | NCBI_BERT(base) (P+M) | Accuracy: 84.00 |
| relation-extraction-on-chemprot | NCBI_BERT(large) (P) | F1: 74.4 |
| semantic-similarity-on-biosses | NCBI_BERT(base) (P+M) | Pearson Correlation: 0.9159999999999999 |
| semantic-similarity-on-medsts | NCBI_BERT(base) (P+M) | Pearson Correlation: 0.848 |