4 个月前

阿拉伯多方言分段:bi-LSTM-CRF 与 SVM 的对比研究

阿拉伯多方言分段:bi-LSTM-CRF 与 SVM 的对比研究

摘要

阿拉伯语分词对于多种自然语言处理(NLP)应用至关重要,如机器翻译和信息检索。分词涉及将单词分解为其构成的词干、词缀和附着语素。本文中,我们比较了两种方法,用于仅使用每种方言几千个训练样本对四种主要阿拉伯语方言进行分词。这两种方法分别是将问题视为排序问题,其中支持向量机(SVM)排序器选择最佳分词;以及将问题视为序列标注问题,其中双向长短期记忆递归神经网络(bi-LSTM RNN)结合条件随机场(CRF)确定单词的最佳分割位置。我们能够在使用相当有限的训练数据的情况下,为所有方言取得坚实的分词结果。此外,我们还表明,利用现代标准阿拉伯语数据进行领域适应并假设上下文独立性可以提高整体效果。

代码仓库

基准测试

基准方法指标
sentiment-analysis-on-dynasentSVM
10 fold Cross validation: 1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
阿拉伯多方言分段:bi-LSTM-CRF 与 SVM 的对比研究 | 论文 | HyperAI超神经