3 个月前

N-gram 与 Embedding 表示在母语识别中的研究

N-gram 与 Embedding 表示在母语识别中的研究

摘要

我们报告了在2017年母语识别(Native Language Identification, NLI)共享任务(团队名称:NLI-ISU)中,针对书面作文文本所开展的基于N-gram与嵌入(embedding)特征表示的实验研究。在测试集上表现最佳的系统取得了0.8264的宏平均F1分数,该系统基于词级一元、二元和三元语法(unigram, bigram, trigram)特征。为完成此项任务,我们探索了涵盖词级、字符级、词性标注(POS)以及词-词性混合表示的多种N-gram特征。在基于嵌入的特征表示方面,我们同时采用了词嵌入(word embeddings)与文档嵌入(document embeddings)。然而,与N-gram方法相比,所有嵌入表示方法的表现相对较差,这可能是因为嵌入模型主要捕捉语义相似性,而母语识别所依赖的语言差异更多体现为风格层面的特征,而非语义层面的差异。

基准测试

基准方法指标
native-language-identification-on-italki-nliNLI-ISU
Average F1: 0.5035

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
N-gram 与 Embedding 表示在母语识别中的研究 | 论文 | HyperAI超神经