
摘要
在本报告中,我们介绍了SciFive,这是一种针对生物医学领域的T5模型,已在大规模生物医学语料库上进行了预训练。我们的模型在命名实体关系、关系抽取、自然语言推理和问答任务上超越了当前最先进的方法(即BERT、BioBERT和基础T5)。我们展示了文本生成方法在广泛的生物医学自然语言处理任务中具有显著潜力,尤其是在需要较长、更复杂输出的任务中。我们的结果支持对更具挑战性的文本生成任务进行探索,并推动该领域新方法的发展。
代码仓库
justinphan3110/SciFive
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-classification-on-hoc | SciFive-large | F1: 86.08 |
| drug-drug-interaction-extraction-on-ddi | SciFive-large | F1: 0.8367 Micro F1: 83.67 |
| named-entity-recognition-ner-on-jnlpba | SciFive-Large | F1: 77.55 |
| named-entity-recognition-ner-on-ncbi-disease | SciFive-Base | F1: 89.39 |
| named-entity-recognition-on-bc5cdr-chemical | SciFive-Large | F1: 94.76 |
| named-entity-recognition-on-bc5cdr-disease | SciFive-Large | F1: 87.62 |
| named-entity-recognition-on-species-800 | SciFive-Base | F1: 76.55 |
| natural-language-inference-on-mednli | SciFive-large | Accuracy: 86.57 Params (M): 738 |
| relation-extraction-on-chemprot | SciFive Large | F1: 78 |
| relation-extraction-on-chemprot | BioT5X (base) | F1: 77.40 |