4 个月前

通过对比学习优化命名实体识别的双编码器

通过对比学习优化命名实体识别的双编码器

摘要

我们提出了一种用于命名实体识别(NER)的双编码器框架,该框架通过对比学习将候选文本片段和实体类型映射到同一向量表示空间。以往的研究主要将NER视为序列标注或片段分类问题。而我们则将其构架为一个表示学习问题,旨在最大化实体提及与其类型之间的向量表示相似度。这使得处理嵌套和扁平的NER变得容易,并且可以更好地利用噪声自监督信号。对于这种双编码器形式的NER,一个主要挑战在于区分非实体片段与实体提及。不同于大多数先前方法中显式地将所有非实体片段标记为同一类$\texttt{Outside}$($\texttt{O}$),我们引入了一种新颖的动态阈值损失函数。实验表明,我们的方法在有监督和远距离监督设置下均表现良好,无论是处理嵌套还是扁平的NER任务,在通用领域的标准数据集(如ACE2004、ACE2005)以及高价值垂直领域(如生物医学领域的GENIA、NCBI、BC5CDR、JNLPBA)中都建立了新的最先进水平。我们在github.com/microsoft/binder上发布了代码。

代码仓库

microsoft/binder
官方
pytorch

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过对比学习优化命名实体识别的双编码器 | 论文 | HyperAI超神经