HyperAI

摘要

仇恨言论是困扰在线社交媒体平台的一项严峻挑战。尽管针对仇恨言论检测的性能更优的模型不断被开发出来，但关于仇恨言论检测中偏差（bias）与可解释性（interpretability）方面的研究仍十分有限。本文提出了 HateXplain，这是首个涵盖仇恨言论问题多个维度的基准数据集。我们数据集中的每一条帖子均从三个不同视角进行标注：（1）基础且常用的三分类任务（即仇恨言论、冒犯性言论或正常内容）；（2）目标群体（即帖子中遭受仇恨或冒犯性言论针对的社群）；（3）推理依据（rationales），即标注决策（判定为仇恨、冒犯或正常）所依据的帖子具体语段。我们采用现有最先进的模型进行实验，发现即便某些模型在分类任务上表现优异，其在可解释性指标（如模型合理性与忠实性）上的得分却并不理想。此外，我们还观察到，那些在训练过程中引入人类提供的推理依据的模型，在降低对目标群体的无意偏见方面表现更优。我们已将代码与数据集公开发布于 https://github.com/punyajoy/HateXplain，以促进该领域研究的进一步发展。

摘要

Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee

摘要

用 AI 构建 AI

HyperAI Newsletters

Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee

摘要

用 AI 构建 AI

HyperAI Newsletters

Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

HateXplain：面向可解释仇恨言论检测的基准数据集

Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

HateXplain：面向可解释仇恨言论检测的基准数据集

Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

HateXplain：面向可解释仇恨言论检测的基准数据集

Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee

摘要

用 AI 构建 AI

HyperAI Newsletters