
摘要
本文针对情境化常识推理中的对话推理问题展开研究。我们构建了CICERO数据集,该数据集包含5,672段双人对话,涵盖五类基于话语层面的推理类型:原因、后续事件、先决条件、动机以及听者的情感反应,共包含53,105条此类推理实例。基于该数据集,我们开展了多项生成式与判别式任务:生成原因与后续事件;生成先决条件、动机以及听者的情感反应;以及从多个选项中选择最合理的替代项。实验结果验证了以对话为中心的常识知识数据集在提升对话推理能力方面的价值。我们期望CICERO能够为基于常识的对话推理研究开辟新的研究路径。
代码仓库
declare-lab/CICERO
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| answer-generation-on-cicero | T5-large | ROUGE: 0.2947 |
| answer-generation-on-cicero | T5-large pre-trained on GLUCOSE | ROUGE: 0.2980 |
| answer-selection-on-cicero | T5-large | Exact Match: 77.68 |
| answer-selection-on-cicero | Unified QA | Exact Match: 77.51 |
| generative-question-answering-on-cicero | T5-large pre-trained on GLUCOSE | ROUGE: 0.2980 |
| generative-question-answering-on-cicero | T5-large | ROUGE: 0.2946 |
| generative-question-answering-on-cicero | T5-large pre-trained on COMET | ROUGE: 0.2878 |
| generative-question-answering-on-cicero | BART | ROUGE: 0.2837 |