
摘要
人工智能(AI)以及最近在生物医学语言理解方面的进展正在逐渐改变医疗实践。随着生物医学语言理解基准的发展,AI 应用在医疗领域的应用越来越广泛。然而,大多数基准仅限于英语,这使得许多在英语中取得的成功难以在其他语言中复制。为了促进这一方向的研究,我们收集了真实世界的生物医学数据,并提出了首个中文生物医学语言理解评估(CBLUE)基准:该基准包含命名实体识别、信息提取、临床诊断规范化、单句/句对分类等自然语言理解任务,以及一个用于模型评估、比较和分析的在线平台。为了建立这些任务的评估标准,我们报告了当前 11 种预训练中文模型的实证结果,实验结果显示最先进的神经模型远未达到人类水平。我们的基准已在天池阿里云平台发布,网址为 https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414&lang=en-us。
代码仓库
cbluebenchmark/cblue
官方
pytorch
GitHub 中提及
freedomintelligence/sdak
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| intent-classification-on-kuake-qic | RoBERTa-wwm-ext-base | Accuracy: 85.5 |
| medical-concept-normalization-on-chip-cdn | MacBERT-large | Micro F1: 59.3 |
| medical-relation-extraction-on-cmeie | RoBERTa-wwm-ext-large | Micro F1: 55.9 |
| named-entity-recognition-on-cmeee | MacBERT-large | Micro F1: 62.4 |
| natural-language-inference-on-kuake-qqr | BERT-base | Accuracy: 84.7 |
| natural-language-inference-on-kuake-qtr | MacBERT-large | Accuracy: 62.9 |
| semantic-similarity-on-chip-sts | MacBERT-large | Macro F1: 85.6 |
| sentence-classification-on-chip-ctc | RoBERTa-large | Macro F1: 70.9 |