3 个月前

HopeEDI:面向平等、多元与包容的多语言希望话语检测数据集

HopeEDI:面向平等、多元与包容的多语言希望话语检测数据集

摘要

近年来,为管控网络内容并清除滥用、冒犯性或仇恨言论,各类系统相继被开发出来。然而,权力掌握者有时会滥用此类审查手段,妨碍民主社会中言论自由的基本权利。因此,亟需开展研究,采用正向强化的方法,关注那些具有鼓励性、积极向上及支持性的网络内容。迄今为止,大多数相关研究主要集中于英语语境下负面内容的识别与处理,但该问题远不止于有害内容本身,更具有显著的多语言特征。为此,我们构建了一个名为“希望言论数据集:平等、多元与包容”(HopeEDI)的多语言数据集,其中包含来自社交媒体平台YouTube的用户生成评论,分别涵盖英语、泰米尔语和马拉雅拉姆语,数量分别为28,451条、20,198条和10,705条,并由人工标注为“包含希望言论”或“不包含希望言论”。据我们所知,这是首个在多语言环境下针对平等、多元与包容主题进行希望言论标注的研究工作。我们采用Krippendorff’s alpha系数评估了该数据集的标注者间一致性,结果表明标注质量可靠。此外,我们建立了多个基准模型以评估该数据集的性能,并以精确率(precision)、召回率(recall)和F1分数作为评价指标。该数据集已向研究社区公开,供学术界自由使用。我们期望该资源能够推动更多关于促进包容性与响应性语言、强化积极话语的深入研究。

基准测试

基准方法指标
hope-speech-detection-for-english-on-hopeediDecision Tree Classifier
Weighted Average F1-score: 0.90
hope-speech-detection-for-malayalam-onDecision Tree Classifier
Weighted Average F1-score: 0.73
hope-speech-detection-for-tamil-on-hopeediLogistic Regression
Weighted Average F1-score: 0.56
hope-speech-detection-on-hopeediDecision Tree Classifier
Weighted Average F1-score: 0.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HopeEDI:面向平等、多元与包容的多语言希望话语检测数据集 | 论文 | HyperAI超神经