4 个月前

基于实体投影的跨语言命名实体识别机器翻译方法

基于实体投影的跨语言命名实体识别机器翻译方法

摘要

尽管目前已有超过100种语言得到了强大的现成机器翻译系统的支持,但其中只有少数语言拥有大规模的命名实体识别注释语料库。基于这一事实,我们利用机器翻译来改进跨语言命名实体识别中的注释投影方法。我们提出了一种系统,该系统通过以下方式改进了先前的实体投影方法:(a) 两次利用机器翻译系统:首先用于翻译句子,然后用于翻译实体;(b) 基于正字法和音系相似性匹配实体;(c) 根据从数据集中得出的分布统计信息识别匹配项。我们的方法在5种不同的语言上平均提高了4.1个百分点,超越了当前跨语言命名实体识别领域的最先进方法。此外,我们的方法在亚美尼亚语上的F_1分数达到了最先进水平,甚至超过了使用亚美尼亚语源数据训练的单语模型。

代码仓库

alankarj/cross_lingual_ner
官方
GitHub 中提及

基准测试

基准方法指标
cross-lingual-ner-on-conll-2003BiLSTM + CRF
Dutch: 69.9
German: 61.5
Spanish: 74.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于实体投影的跨语言命名实体识别机器翻译方法 | 论文 | HyperAI超神经