6 个月前

自然语言处理

自然语言处理

Xinyu Wang Yong Jiang Nguyen Bach Tao Wang Zhongqiang Huang Fei Huang Kewei Tu

摘要

近期研究提出了一类上下文感知嵌入（contextual embeddings），显著提升了序列标注模型在非上下文嵌入基础上的准确率。然而，目前尚无定论表明：在不同应用场景下，通过融合多种类型的嵌入是否能够构建出更优的序列标注模型。本文在18个数据集、8种语言上针对3项任务开展了大量实验，系统研究了不同嵌入方式拼接对序列标注准确率的影响，并得出以下三个结论：（1）在资源丰富及跨领域场景下，以及部分低资源场景中，拼接更多类型的嵌入变体能够提升模型准确率；（2）在极端低资源场景下，将额外的上下文子词嵌入与上下文字符嵌入进行拼接反而会降低模型性能；（3）基于结论（1），进一步拼接相似类型的上下文嵌入无法带来额外的性能提升。我们希望上述结论能够为研究人员在各类场景下构建更强大的序列标注模型提供有益参考。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Xinyu Wang Yong Jiang Nguyen Bach Tao Wang Zhongqiang Huang Fei Huang Kewei Tu

摘要

近期研究提出了一类上下文感知嵌入（contextual embeddings），显著提升了序列标注模型在非上下文嵌入基础上的准确率。然而，目前尚无定论表明：在不同应用场景下，通过融合多种类型的嵌入是否能够构建出更优的序列标注模型。本文在18个数据集、8种语言上针对3项任务开展了大量实验，系统研究了不同嵌入方式拼接对序列标注准确率的影响，并得出以下三个结论：（1）在资源丰富及跨领域场景下，以及部分低资源场景中，拼接更多类型的嵌入变体能够提升模型准确率；（2）在极端低资源场景下，将额外的上下文子词嵌入与上下文字符嵌入进行拼接反而会降低模型性能；（3）基于结论（1），进一步拼接相似类型的上下文嵌入无法带来额外的性能提升。我们希望上述结论能够为研究人员在各类场景下构建更强大的序列标注模型提供有益参考。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供