4 个月前

丹麦语中的冒犯性语言和仇恨言论检测

丹麦语中的冒犯性语言和仇恨言论检测

摘要

社交媒体平台上的冒犯性语言及其带来的影响正逐渐成为现代社会的一大关切。鉴于每天产生的大量内容,自动检测和处理此类内容的方法变得不可或缺。迄今为止,大多数研究主要集中在解决英语中的这一问题,而实际上该问题是多语言的。我们构建了一个包含来自\textit{Reddit}和\textit{Facebook}的用户生成评论的丹麦语数据集。该数据集涵盖了多个社交平台的用户生成评论,据我们所知,这是首个此类数据集。我们的数据集经过注释,旨在捕捉各种类型的冒犯性语言及其目标。我们开发了四种自动分类系统,每种系统均设计为适用于英语和丹麦语。在英语冒犯性语言检测中,表现最佳的系统达到了宏平均F1分数为0.74;而在丹麦语中,表现最佳的系统达到了宏平均F1分数为0.70。在判断冒犯性帖子是否具有针对性方面,英语的最佳系统达到了宏平均F1分数为0.62,而丹麦语的最佳系统则达到了宏平均F1分数为0.73。最后,在检测具有针对性的冒犯性帖子的目标类型时,英语的最佳系统达到了宏平均F1分数为0.56,而丹麦语的最佳系统则达到了宏平均F1分数为0.63。我们的研究工作不仅涵盖了英语和丹麦语中的冒犯性语言类型及其目标,并且提出了自动检测不同种类冒犯性语言(如仇恨言论和网络欺凌)的方法。

基准测试

基准方法指标
hate-speech-detection-on-dkhateBaseline
F1: 0.70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
丹麦语中的冒犯性语言和仇恨言论检测 | 论文 | HyperAI超神经