HyperAIHyperAI

Command Palette

Search for a command to run...

HateXplain:面向可解释仇恨言论检测的基准数据集

Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee

摘要

仇恨言论是困扰在线社交媒体平台的一项严峻挑战。尽管针对仇恨言论检测的性能更优的模型不断被开发出来,但关于仇恨言论检测中偏差(bias)与可解释性(interpretability)方面的研究仍十分有限。本文提出了 HateXplain,这是首个涵盖仇恨言论问题多个维度的基准数据集。我们数据集中的每一条帖子均从三个不同视角进行标注:(1)基础且常用的三分类任务(即仇恨言论、冒犯性言论或正常内容);(2)目标群体(即帖子中遭受仇恨或冒犯性言论针对的社群);(3)推理依据(rationales),即标注决策(判定为仇恨、冒犯或正常)所依据的帖子具体语段。我们采用现有最先进的模型进行实验,发现即便某些模型在分类任务上表现优异,其在可解释性指标(如模型合理性与忠实性)上的得分却并不理想。此外,我们还观察到,那些在训练过程中引入人类提供的推理依据的模型,在降低对目标群体的无意偏见方面表现更优。我们已将代码与数据集公开发布于 https://github.com/punyajoy/HateXplain,以促进该领域研究的进一步发展


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HateXplain:面向可解释仇恨言论检测的基准数据集 | 论文 | HyperAI超神经