
摘要
我们介绍了自我标注Reddit语料库(Self-Annotated Reddit Corpus,简称SARC),这是一个用于讽刺研究以及训练和评估讽刺检测系统的大型语料库。该语料库包含130万条讽刺陈述,数量是任何先前数据集的10倍,并且还包含大量非讽刺陈述实例,从而支持在平衡和不平衡标签条件下进行学习。此外,每条陈述都是自我标注的——讽刺标签由作者而非独立标注者提供,并附有用户、主题和对话上下文。我们对语料库进行了准确性评估,构建了讽刺检测的基准测试,并评估了基线方法。
代码仓库
Kaguura/SarcasmDetection
GitHub 中提及
sachinsharma3191/Sarcasm-Detection
GitHub 中提及
karlwbaker/Springboard_capstone
GitHub 中提及
NauqGnesh/RedditSarcasm
tf
GitHub 中提及
chrisolen1/sarcasm-detection
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sarcasm-detection-on-sarc-all-bal | Bag-of-Bigrams | Accuracy: 75.8 |
| sarcasm-detection-on-sarc-pol-bal | Bag-of-Bigrams | Accuracy: 76.5 |
| sarcasm-detection-on-sarc-pol-unbal | Bag-of-Words | Avg F1: 27.0 |