3 个月前

社交媒体中巴西葡萄牙语的有害语言检测:新数据集与多语言分析

社交媒体中巴西葡萄牙语的有害语言检测:新数据集与多语言分析

摘要

仇恨言论和有毒评论是社交媒体平台用户普遍关注的问题。尽管这类评论在平台内容中仅占少数,但仍可能造成实质性伤害。因此,识别此类评论成为研究并遏制社交媒体中毒性内容蔓延的重要任务。以往针对有毒评论的自动检测研究主要集中于英语语料,而针对巴西葡萄牙语等其他语言的研究则极为有限。本文提出一个面向巴西葡萄牙语的大规模数据集,其中包含经过标注的推文,标注类别包括有毒、非有毒以及不同类型的毒性。我们详细介绍了数据收集与标注流程,并特别注重选取涵盖多个社会群体的样本,以提升数据的代表性。在二分类任务中,采用最先进的单语BERT模型在仅使用单语数据的情况下,取得了76%的宏平均F1分数。此外,我们的研究还表明,尽管多语言模型技术近年来取得显著进展,但构建更精准的模型仍需大规模的单语语料支持。通过错误分析及多标签分类实验,我们发现某些在数据中出现频率较低的有毒评论类型难以准确识别,凸显了开发能够区分不同类型毒性的模型的迫切需求。

代码仓库

JAugusto97/ToLD-Br
官方
GitHub 中提及

基准测试

基准方法指标
hate-speech-detection-on-told-brAutoML
F1-score: 0.74
hate-speech-detection-on-told-brMultilingual BERT
F1-score: 0.75

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
社交媒体中巴西葡萄牙语的有害语言检测:新数据集与多语言分析 | 论文 | HyperAI超神经