3 个月前

BanglaBook:面向书籍评论情感分析的大规模孟加拉语数据集

BanglaBook:面向书籍评论情感分析的大规模孟加拉语数据集

摘要

通过对消费者评论中表达的情感进行分析,可为产品品质提供丰富的洞察。尽管情感分析在多种主流语言中已得到广泛研究,但针对孟加拉语(Bangla)的研究仍相对较少,主要原因在于缺乏相关数据以及跨领域适应性差。为解决这一局限,本文提出 BanglaBook——一个大规模的孟加拉语图书评论数据集,包含158,065条样本,按情感倾向划分为正面、负面和中性三类。我们对数据集进行了详尽的统计分析,并采用多种机器学习模型构建基线性能,包括支持向量机(SVM)、长短期记忆网络(LSTM)以及孟加拉语预训练模型 Bangla-BERT。实验结果表明,预训练模型在性能上显著优于依赖人工特征工程的模型,凸显了在该领域进一步开发训练资源的必要性。此外,我们通过分析情感单字词(sentiment unigrams)开展了深入的错误分析,为资源匮乏语言如孟加拉语中的常见分类错误提供了潜在解释。本文所用代码与数据集均已公开,获取地址为:https://github.com/mohsinulkabir14/BanglaBook。

代码仓库

mohsinulkabir14/banglabook
官方
GitHub 中提及

基准测试

基准方法指标
sentiment-analysis-on-banglabookLogistic Regression (word 2-gram + word 3-gram)
Weighted Average F1-score: 0.8964
sentiment-analysis-on-banglabookRandom Forest (word 1-gram)
Weighted Average F1-score: 0.9043
sentiment-analysis-on-banglabookBangla-BERT (base-uncased)
Weighted Average F1-score: 0.9064
sentiment-analysis-on-banglabookXGBoost (word 2-gram + word 3-gram)
Weighted Average F1-score: 0.8651
sentiment-analysis-on-banglabookRandom Forest (word 2-gram + word 3-gram)
Weighted Average F1-score: 0.9106
sentiment-analysis-on-banglabookLSTM (GloVe)
Weighted Average F1-score: 0.0991
sentiment-analysis-on-banglabookMultinomial NB (word 2-gram + word 3-gram)
Weighted Average F1-score: 0.8663
sentiment-analysis-on-banglabookMultinomial NB (BoW)
Weighted Average F1-score: 0.8564
sentiment-analysis-on-banglabookBangla-BERT (large)
Weighted Average F1-score: 0.9331
sentiment-analysis-on-banglabookLogistic Regression (char 2-gram + char 3-gram)
Weighted Average F1-score: 0.8978
sentiment-analysis-on-banglabookSVM (word 1-gram)
Weighted Average F1-score: 0.8519
sentiment-analysis-on-banglabookSVM (word 2-gram + word 3-gram)
Weighted Average F1-score: 0.9053
sentiment-analysis-on-banglabookXGBoost (char 2-gram + char 3-gram)
Weighted Average F1-score: 0.8723

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BanglaBook:面向书籍评论情感分析的大规模孟加拉语数据集 | 论文 | HyperAI超神经