3 个月前

生物医学关系抽取方法与模型在知识图谱构建中的比较

生物医学关系抽取方法与模型在知识图谱构建中的比较

摘要

生物医学研究正以指数级速度迅猛发展,导致科学家、研究人员及从业者难以应对该领域日益增长的文献数量。文献中所呈现的知识亟需系统化组织,以便于研究者能够便捷地发现、访问并验证相关主张与假设。知识图谱为从文献中实现语义知识的结构化表示提供了理想的框架。然而,构建知识图谱的前提是能够从文本中提取生物医学实体之间的关系,并对实体及关系类型进行标准化处理。本文系统比较了若干基于规则的方法以及机器学习方法(以朴素贝叶斯、随机森林为代表的传统机器学习方法,以及以DistilBERT、PubMedBERT、T5和SciFive为基础的现代深度学习Transformer模型)在可扩展关系抽取中的表现,并探讨其在知识图谱构建中的集成能力。我们进一步评估了这些方法在面对类别不平衡且样本量较小的数据集时的鲁棒性。实验结果表明,基于Transformer的模型在处理小样本数据(得益于在大规模语料上预训练)和不平衡数据方面均表现出色。其中,经平衡数据微调的PubMedBERT模型表现最佳,F1得分达到0.92;DistilBERT模型紧随其后,F1得分为0.89,且在推理速度和资源消耗方面更具优势。相比之下,基于BERT的模型在性能上优于基于T5的生成式模型。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
生物医学关系抽取方法与模型在知识图谱构建中的比较 | 论文 | HyperAI超神经