摘要
在生物医学科学文献中识别化学物质是药物研发研究中的关键任务。BioCreative NLM-Chem挑战赛推动了自动系统的发展,旨在从全文文章中识别化学物质,并判断哪些化学概念应被纳入索引。本文介绍了阿威罗大学BIT.UA团队的参与情况,我们提出了一种三阶段的自动化流程,分别针对(i)化学实体提及识别、(ii)实体归一化以及(iii)索引判定三个任务。在化学物质识别方面,我们采用基于生物医学领域BERT变体的深度学习方法;在归一化阶段,我们采用了基于规则的方法,并进一步提出一种结合密集检索机制的混合方法;在索引判定方面,同样采用了两种不同策略:基于规则的方法与基于TF-IDF的方法。我们的最佳官方结果在三个子任务中均持续优于官方中位数及基准水平,F1分数分别为0.8454、0.8136和0.4664。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chemical-indexing-on-bc7-nlm-chem | Rule-based | F1-score (strict): 0.4664 |
| entity-linking-on-bc7-nlm-chem | Sieve-based | F1-score (strict): 0.8136 |
| named-entity-recognition-on-bc7-nlm-chem | PubMedBERT+MLP+CRF | F1-score (strict): 0.8454 |