3 个月前

阿姆哈拉语新闻文本分类数据集

阿姆哈拉语新闻文本分类数据集

摘要

在自然语言处理(NLP)领域,文本分类是我们亟需解决的核心问题之一,其在语言分析中的应用价值毋庸置疑。然而,对于阿姆哈拉语等低资源语言而言,由于缺乏标注的训练数据,此类任务的开展面临较大挑战。系统性地收集、标注、注释并构建高质量的数据集,将有力激励初级研究人员、教育机构以及机器学习实践者在其母语中应用现有的分类模型。本文旨在介绍一个阿姆哈拉语文本分类数据集,该数据集包含超过5万篇新闻文章,并被划分为6个类别。为促进相关研究并推动更优性能的实验,我们同时提供了该数据集的简易基线性能结果,以便研究者参考与进一步优化。

基准测试

基准方法指标
text-classification-on-an-amharic-news-textNaive Bayes using count vectorizer features
Accuracy: 62.2
text-classification-on-an-amharic-news-textNaive Bayes using Tf-idf features
Accuracy: 62.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
阿姆哈拉语新闻文本分类数据集 | 论文 | HyperAI超神经