3 个月前

基于深度学习与规则驱动方法的PubMed全文文献中化学物质检测与索引

基于深度学习与规则驱动方法的PubMed全文文献中化学物质检测与索引

摘要

在生物医学科学文献中识别化学物质是药物研发研究中的关键任务。BioCreative NLM-Chem挑战赛推动了自动系统的发展,旨在从全文文章中识别化学物质,并判断哪些化学概念应被纳入索引。本文介绍了阿威罗大学BIT.UA团队的参与情况,我们提出了一种三阶段的自动化流程,分别针对(i)化学实体提及识别、(ii)实体归一化以及(iii)索引判定三个任务。在化学物质识别方面,我们采用基于生物医学领域BERT变体的深度学习方法;在归一化阶段,我们采用了基于规则的方法,并进一步提出一种结合密集检索机制的混合方法;在索引判定方面,同样采用了两种不同策略:基于规则的方法与基于TF-IDF的方法。我们的最佳官方结果在三个子任务中均持续优于官方中位数及基准水平,F1分数分别为0.8454、0.8136和0.4664。

基准测试

基准方法指标
chemical-indexing-on-bc7-nlm-chemRule-based
F1-score (strict): 0.4664
entity-linking-on-bc7-nlm-chemSieve-based
F1-score (strict): 0.8136
named-entity-recognition-on-bc7-nlm-chemPubMedBERT+MLP+CRF
F1-score (strict): 0.8454

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度学习与规则驱动方法的PubMed全文文献中化学物质检测与索引 | 论文 | HyperAI超神经