6 个月前

Mohsinul Kabir Obayed Bin Mahfuz Syed Rifat Raiyan Hasan Mahmud Md Kamrul Hasan

摘要

通过对消费者评论中表达的情感进行分析，可为产品品质提供丰富的洞察。尽管情感分析在多种主流语言中已得到广泛研究，但针对孟加拉语（Bangla）的研究仍相对较少，主要原因在于缺乏相关数据以及跨领域适应性差。为解决这一局限，本文提出 BanglaBook——一个大规模的孟加拉语图书评论数据集，包含158,065条样本，按情感倾向划分为正面、负面和中性三类。我们对数据集进行了详尽的统计分析，并采用多种机器学习模型构建基线性能，包括支持向量机（SVM）、长短期记忆网络（LSTM）以及孟加拉语预训练模型 Bangla-BERT。实验结果表明，预训练模型在性能上显著优于依赖人工特征工程的模型，凸显了在该领域进一步开发训练资源的必要性。此外，我们通过分析情感单字词（sentiment unigrams）开展了深入的错误分析，为资源匮乏语言如孟加拉语中的常见分类错误提供了潜在解释。本文所用代码与数据集均已公开，获取地址为：https://github.com/mohsinulkabir14/BanglaBook。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Mohsinul Kabir Obayed Bin Mahfuz Syed Rifat Raiyan Hasan Mahmud Md Kamrul Hasan

摘要

通过对消费者评论中表达的情感进行分析，可为产品品质提供丰富的洞察。尽管情感分析在多种主流语言中已得到广泛研究，但针对孟加拉语（Bangla）的研究仍相对较少，主要原因在于缺乏相关数据以及跨领域适应性差。为解决这一局限，本文提出 BanglaBook——一个大规模的孟加拉语图书评论数据集，包含158,065条样本，按情感倾向划分为正面、负面和中性三类。我们对数据集进行了详尽的统计分析，并采用多种机器学习模型构建基线性能，包括支持向量机（SVM）、长短期记忆网络（LSTM）以及孟加拉语预训练模型 Bangla-BERT。实验结果表明，预训练模型在性能上显著优于依赖人工特征工程的模型，凸显了在该领域进一步开发训练资源的必要性。此外，我们通过分析情感单字词（sentiment unigrams）开展了深入的错误分析，为资源匮乏语言如孟加拉语中的常见分类错误提供了潜在解释。本文所用代码与数据集均已公开，获取地址为：https://github.com/mohsinulkabir14/BanglaBook。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供