4 个月前

BioSentVec:为生物医学文本创建句子嵌入向量

BioSentVec:为生物医学文本创建句子嵌入向量

摘要

句向量已成为当今自然语言处理(NLP)系统的重要组成部分,尤其是在结合先进的深度学习方法时。尽管在通用领域已有预训练的句编码器可用,但目前尚无针对生物医学文本的预训练句编码器。在这项工作中,我们介绍了BioSentVec:首个开放的句向量集合,该集合使用来自PubMed学术文章和MIMIC-III临床数据库中的超过3000万篇文档进行训练。我们在不同文本类型中的两个句对相似度任务中评估了BioSentVec嵌入的效果。基准测试结果表明,与其他竞争性替代方案相比,BioSentVec嵌入能够更好地捕捉句子语义,并在这两个任务中均达到了最先进的性能。我们期望BioSentVec能够促进生物医学文本挖掘的研究和开发,并补充现有的生物医学词嵌入资源。BioSentVec已公开发布于https://github.com/ncbi-nlp/BioSentVec。

代码仓库

ncbi-nlp/BioSentVec
官方
GitHub 中提及
ESBigeard/paper_graph
tf
GitHub 中提及
ncbi-nlp/BioWordVec
官方
GitHub 中提及
ncbi-nlp/BLUE_Benchmark
GitHub 中提及

基准测试

基准方法指标
sentence-embeddings-for-biomedical-texts-onUniversal Sentence Encoder
Pearson Correlation: 0.345
sentence-embeddings-for-biomedical-texts-onBioSentVec (MIMIC-III)
Pearson Correlation: 0.350
sentence-embeddings-for-biomedical-texts-onBioSentVec (PubMed + MIMIC-III)
Pearson Correlation: 0.795
sentence-embeddings-for-biomedical-texts-onBioSentVec (PubMed)
Pearson Correlation: 0.817
sentence-embeddings-for-biomedical-texts-on-2BioSentVec (PubMed + MIMIC-III)
Pearson Correlation: 0.767
sentence-embeddings-for-biomedical-texts-on-2BioSentVec (MIMIC-III)
Pearson Correlation: 0.759
sentence-embeddings-for-biomedical-texts-on-2Universal Sentence Encoder
Pearson Correlation: 0.714
sentence-embeddings-for-biomedical-texts-on-2BioSentVec (PubMed)
Pearson Correlation: 0.750

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BioSentVec:为生物医学文本创建句子嵌入向量 | 论文 | HyperAI超神经