3 个月前

基于深度学习的多语言仇恨言论检测模型

基于深度学习的多语言仇恨言论检测模型

摘要

仇恨言论检测是一项极具挑战性的任务,目前大多数可用数据集仅限于单一语言——英语。本文对来自16个不同来源的9种语言中的多语言仇恨言论进行了大规模分析。研究发现,在低资源场景下,诸如LASER嵌入结合逻辑回归的简单模型表现最佳;而在高资源场景下,基于BERT的模型则更具优势。在零样本分类(zero-shot classification)任务中,意大利语和葡萄牙语等语言也取得了较好的效果。我们提出的框架可为低资源语言提供一种高效的解决方案,同时这些模型也可作为未来多语言仇恨言论检测任务的优质基准模型。相关代码与实验设置已公开,供其他研究者使用,详见:https://github.com/punyajoy/DE-LIMIT。

代码仓库

punyajoy/DE-LIMIT
官方
pytorch
GitHub 中提及
hate-alert/DE-LIMIT
pytorch
GitHub 中提及

基准测试

基准方法指标
hate-speech-detection-on-automaticmBert
Accuracy: 0.832
question-similarity-on-q2q-arabic-benchmarkmBert
F1 score: 0.8365

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度学习的多语言仇恨言论检测模型 | 论文 | HyperAI超神经