4 个月前

学习用于序列标注的词内部结构

学习用于序列标注的词内部结构

摘要

基于字符的神经模型最近在许多自然语言处理(NLP)任务中证明了其非常有用。然而,在学习句子和单词表示的方法之间存在复杂度上的差距。大多数用于学习句子表示的字符模型都是深层且复杂的,而用于学习单词表示的字符模型则较为浅层且简单。尽管在学习字符嵌入方面已经进行了大量研究,但哪种架构最适合捕捉从字符到单词的表示仍然不清楚。为了解决这些问题,我们首先探讨了学习单词和句子表示方法之间的差距。我们对不同的最先进卷积模型进行了详细的实验和比较,并分析了这些模型组成部分的优点和缺点。此外,我们提出了IntNet,这是一种漏斗形的宽卷积神经架构,没有下采样过程,旨在通过组合有限监督训练语料库中的字符来学习单词内部结构的表示。我们在六个序列标注数据集上评估了所提出的模型,包括命名实体识别、词性标注和句法组块划分。深入分析表明,IntNet显著优于其他字符嵌入模型,并且在不依赖任何外部知识或资源的情况下取得了新的最先进性能。

基准测试

基准方法指标
chunking-on-penn-treebankIntNet + BiLSTM-CRF
F1 score: 95.29
named-entity-recognition-ner-on-conll-2003IntNet + BiLSTM-CRF
F1: 91.64
part-of-speech-tagging-on-penn-treebankIntNet + BiLSTM-CRF
Accuracy: 97.58

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供