3 个月前

更多 Embeddings,能否带来更好的序列标注模型?

更多 Embeddings,能否带来更好的序列标注模型?

摘要

近期研究提出了一类上下文感知嵌入(contextual embeddings),显著提升了序列标注模型在非上下文嵌入基础上的准确率。然而,目前尚无定论表明:在不同应用场景下,通过融合多种类型的嵌入是否能够构建出更优的序列标注模型。本文在18个数据集、8种语言上针对3项任务开展了大量实验,系统研究了不同嵌入方式拼接对序列标注准确率的影响,并得出以下三个结论:(1)在资源丰富及跨领域场景下,以及部分低资源场景中,拼接更多类型的嵌入变体能够提升模型准确率;(2)在极端低资源场景下,将额外的上下文子词嵌入与上下文字符嵌入进行拼接反而会降低模型性能;(3)基于结论(1),进一步拼接相似类型的上下文嵌入无法带来额外的性能提升。我们希望上述结论能够为研究人员在各类场景下构建更强大的序列标注模型提供有益参考。

基准测试

基准方法指标
chunking-on-conll-2003-englishWang et al., 2020
F1: 92.0
chunking-on-conll-2003-germanWang et al., 2020
F1: 94.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
更多 Embeddings,能否带来更好的序列标注模型? | 论文 | HyperAI超神经