4 个月前

学习去噪远距离标注数据以进行实体类型识别

学习去噪远距离标注数据以进行实体类型识别

摘要

远距离标注数据可以用于扩大统计模型的训练规模,但这种数据通常存在噪声,且噪声程度会因不同的远距离标注技术而异。在本研究中,我们提出了一种两阶段处理此类数据的方法:首先使用学习模型对数据进行去噪,然后在经过清理和去噪的远距离数据上通过标准监督训练方法训练最终模型。我们的去噪方法由两个部分组成。第一部分是一个过滤函数,用于从远距离标注数据中剔除完全不可用的样本;第二部分是一个重标签函数,用于修复保留样本中的噪声标签。这两个组件都是基于从少量人工标注的数据集生成的合成噪声样本来训练的模型。我们在Choi等人(2018)提出的超细实体分类任务上对该方法进行了研究。我们的基线模型是在他们模型的基础上加入了预训练的ELMo表示,该模型已经达到了当前最佳性能。通过添加使用我们学习模型去噪后的远距离数据,进一步提高了基线模型的性能,优于直接在原始远距离数据或启发式去噪远距离数据上训练的模型。

代码仓库

基准测试

基准方法指标
entity-typing-on-ontonotes-v5-englishELMo (distant denoising data)
F1: 40.2
Precision: 51.5
Recall: 33
entity-typing-on-open-entity-1LDET
F1: 40.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习去噪远距离标注数据以进行实体类型识别 | 论文 | HyperAI超神经