4 个月前

CBLUE:中文生物医学语言理解评估基准

CBLUE:中文生物医学语言理解评估基准

摘要

人工智能(AI)以及最近在生物医学语言理解方面的进展正在逐渐改变医疗实践。随着生物医学语言理解基准的发展,AI 应用在医疗领域的应用越来越广泛。然而,大多数基准仅限于英语,这使得许多在英语中取得的成功难以在其他语言中复制。为了促进这一方向的研究,我们收集了真实世界的生物医学数据,并提出了首个中文生物医学语言理解评估(CBLUE)基准:该基准包含命名实体识别、信息提取、临床诊断规范化、单句/句对分类等自然语言理解任务,以及一个用于模型评估、比较和分析的在线平台。为了建立这些任务的评估标准,我们报告了当前 11 种预训练中文模型的实证结果,实验结果显示最先进的神经模型远未达到人类水平。我们的基准已在天池阿里云平台发布,网址为 https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414&lang=en-us。

代码仓库

cbluebenchmark/cblue
官方
pytorch
GitHub 中提及
freedomintelligence/sdak
pytorch
GitHub 中提及

基准测试

基准方法指标
intent-classification-on-kuake-qicRoBERTa-wwm-ext-base
Accuracy: 85.5
medical-concept-normalization-on-chip-cdnMacBERT-large
Micro F1: 59.3
medical-relation-extraction-on-cmeieRoBERTa-wwm-ext-large
Micro F1: 55.9
named-entity-recognition-on-cmeeeMacBERT-large
Micro F1: 62.4
natural-language-inference-on-kuake-qqrBERT-base
Accuracy: 84.7
natural-language-inference-on-kuake-qtrMacBERT-large
Accuracy: 62.9
semantic-similarity-on-chip-stsMacBERT-large
Macro F1: 85.6
sentence-classification-on-chip-ctcRoBERTa-large
Macro F1: 70.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CBLUE:中文生物医学语言理解评估基准 | 论文 | HyperAI超神经