4 个月前

一个大型自标注的讽刺语料库

一个大型自标注的讽刺语料库

摘要

我们介绍了自我标注Reddit语料库(Self-Annotated Reddit Corpus,简称SARC),这是一个用于讽刺研究以及训练和评估讽刺检测系统的大型语料库。该语料库包含130万条讽刺陈述,数量是任何先前数据集的10倍,并且还包含大量非讽刺陈述实例,从而支持在平衡和不平衡标签条件下进行学习。此外,每条陈述都是自我标注的——讽刺标签由作者而非独立标注者提供,并附有用户、主题和对话上下文。我们对语料库进行了准确性评估,构建了讽刺检测的基准测试,并评估了基线方法。

基准测试

基准方法指标
sarcasm-detection-on-sarc-all-balBag-of-Bigrams
Accuracy: 75.8
sarcasm-detection-on-sarc-pol-balBag-of-Bigrams
Accuracy: 76.5
sarcasm-detection-on-sarc-pol-unbalBag-of-Words
Avg F1: 27.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一个大型自标注的讽刺语料库 | 论文 | HyperAI超神经