6 个月前

自然语言处理

自然语言处理

João A. Leite Diego F. Silva Kalina Bontcheva Carolina Scarton

摘要

仇恨言论和有毒评论是社交媒体平台用户普遍关注的问题。尽管这类评论在平台内容中仅占少数，但仍可能造成实质性伤害。因此，识别此类评论成为研究并遏制社交媒体中毒性内容蔓延的重要任务。以往针对有毒评论的自动检测研究主要集中于英语语料，而针对巴西葡萄牙语等其他语言的研究则极为有限。本文提出一个面向巴西葡萄牙语的大规模数据集，其中包含经过标注的推文，标注类别包括有毒、非有毒以及不同类型的毒性。我们详细介绍了数据收集与标注流程，并特别注重选取涵盖多个社会群体的样本，以提升数据的代表性。在二分类任务中，采用最先进的单语BERT模型在仅使用单语数据的情况下，取得了76%的宏平均F1分数。此外，我们的研究还表明，尽管多语言模型技术近年来取得显著进展，但构建更精准的模型仍需大规模的单语语料支持。通过错误分析及多标签分类实验，我们发现某些在数据中出现频率较低的有毒评论类型难以准确识别，凸显了开发能够区分不同类型毒性的模型的迫切需求。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

João A. Leite Diego F. Silva Kalina Bontcheva Carolina Scarton

摘要

仇恨言论和有毒评论是社交媒体平台用户普遍关注的问题。尽管这类评论在平台内容中仅占少数，但仍可能造成实质性伤害。因此，识别此类评论成为研究并遏制社交媒体中毒性内容蔓延的重要任务。以往针对有毒评论的自动检测研究主要集中于英语语料，而针对巴西葡萄牙语等其他语言的研究则极为有限。本文提出一个面向巴西葡萄牙语的大规模数据集，其中包含经过标注的推文，标注类别包括有毒、非有毒以及不同类型的毒性。我们详细介绍了数据收集与标注流程，并特别注重选取涵盖多个社会群体的样本，以提升数据的代表性。在二分类任务中，采用最先进的单语BERT模型在仅使用单语数据的情况下，取得了76%的宏平均F1分数。此外，我们的研究还表明，尽管多语言模型技术近年来取得显著进展，但构建更精准的模型仍需大规模的单语语料支持。通过错误分析及多标签分类实验，我们发现某些在数据中出现频率较低的有毒评论类型难以准确识别，凸显了开发能够区分不同类型毒性的模型的迫切需求。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供