8 个月前

自然语言处理

自然语言处理

Sheng Zhang Hao Cheng Jianfeng Gao Hoifung Poon

摘要

我们提出了一种用于命名实体识别（NER）的双编码器框架，该框架通过对比学习将候选文本片段和实体类型映射到同一向量表示空间。以往的研究主要将NER视为序列标注或片段分类问题。而我们则将其构架为一个表示学习问题，旨在最大化实体提及与其类型之间的向量表示相似度。这使得处理嵌套和扁平的NER变得容易，并且可以更好地利用噪声自监督信号。对于这种双编码器形式的NER，一个主要挑战在于区分非实体片段与实体提及。不同于大多数先前方法中显式地将所有非实体片段标记为同一类 $\texttt{Outside}$ （ $\texttt{O}$ ），我们引入了一种新颖的动态阈值损失函数。实验表明，我们的方法在有监督和远距离监督设置下均表现良好，无论是处理嵌套还是扁平的NER任务，在通用领域的标准数据集（如ACE2004、ACE2005）以及高价值垂直领域（如生物医学领域的GENIA、NCBI、BC5CDR、JNLPBA）中都建立了新的最先进水平。我们在github.com/microsoft/binder上发布了代码。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Sheng Zhang Hao Cheng Jianfeng Gao Hoifung Poon

摘要

我们提出了一种用于命名实体识别（NER）的双编码器框架，该框架通过对比学习将候选文本片段和实体类型映射到同一向量表示空间。以往的研究主要将NER视为序列标注或片段分类问题。而我们则将其构架为一个表示学习问题，旨在最大化实体提及与其类型之间的向量表示相似度。这使得处理嵌套和扁平的NER变得容易，并且可以更好地利用噪声自监督信号。对于这种双编码器形式的NER，一个主要挑战在于区分非实体片段与实体提及。不同于大多数先前方法中显式地将所有非实体片段标记为同一类 $\texttt{Outside}$ （ $\texttt{O}$ ），我们引入了一种新颖的动态阈值损失函数。实验表明，我们的方法在有监督和远距离监督设置下均表现良好，无论是处理嵌套还是扁平的NER任务，在通用领域的标准数据集（如ACE2004、ACE2005）以及高价值垂直领域（如生物医学领域的GENIA、NCBI、BC5CDR、JNLPBA）中都建立了新的最先进水平。我们在github.com/microsoft/binder上发布了代码。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供