4 个月前

BN-AuthProf:孟加拉语社交媒体文本作者画像的机器学习基准测试

BN-AuthProf:孟加拉语社交媒体文本作者画像的机器学习基准测试

摘要

作者画像,即通过分析文本以揭示作者的性别和年龄等属性,随着社交媒体平台的广泛使用已成为一项重要任务。本文重点研究孟加拉语的作者画像,旨在根据作者在社交媒体上的写作风格提取有价值的见解。主要目标是介绍并评估机器学习方法在新创建的孟加拉语作者画像数据集(BN-AuthProf)上的性能。该数据集包含来自300位作者的30,131篇社交媒体帖子,每篇帖子都标注了作者的年龄和性别。为了确保隐私,已对作者的身份和敏感信息进行了匿名化处理。研究采用了多种经典的机器学习和深度学习技术来评估该数据集。在性别分类方面,支持向量机(SVM)达到了最高的准确率80%,而多项式朴素贝叶斯(Multinomial Naive Bayes, MNB)分类器则获得了最佳的F1分数0.756。在年龄分类方面,MNB实现了最高准确率91%,F1分数为0.905。本研究强调了机器学习在孟加拉语作者画像中的性别和年龄分类方面的有效性,并探讨了其在营销、安全、司法语言学、教育和刑事调查等领域的实际应用前景,同时考虑了隐私保护和潜在偏见问题。

代码仓库

基准测试

基准方法指标
age-and-gender-classification-on-bn-authprofMultinomial Naive Bayes (MNB)
F1 score: 0.905

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BN-AuthProf:孟加拉语社交媒体文本作者画像的机器学习基准测试 | 论文 | HyperAI超神经