
摘要
由于缺乏对话数据来训练此类代理,会话代理在科学学科(作为专家领域)中的应用研究相对较少。虽然大多数数据收集框架,如亚马逊机械土耳其(Amazon Mechanical Turk),通过连接众包工作者和任务设计者促进了通用领域的数据收集,但这些框架在专家领域的数据收集方面并未进行充分优化。科学家们由于时间有限,很少参与这些框架。因此,我们提出了一种新的框架,用于收集科学家作为领域专家对科学论文的对话。该框架允许科学家以他们的科学论文为对话基础,并参与他们感兴趣的论文标题的对话。我们利用该框架收集了一个新的论证性对话数据集——ArgSciChat。该数据集包含来自20篇科学论文上的41次对话中的498条消息。除了对ArgSciChat进行广泛的分析外,我们还在我们的数据集上评估了一种最近的会话代理。实验结果表明,该代理在ArgSciChat上的表现较差,这激发了对论证性科学会话代理进一步研究的需求。我们发布了我们的框架和数据集。
代码仓库
federicoruggeri/argscichat_project
官方
GitHub 中提及
ukplab/arxiv2022-argscichat
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fact-selection-on-argscichat | TF-IDF | Fact-F1: 16.22 |
| fact-selection-on-argscichat | S-BERT | Fact-F1: 13.65 |
| fact-selection-on-argscichat | LED(Q,P) | Fact-F1: 10.58 |
| fact-selection-on-argscichat | LED(Q,P,H) | Fact-F1: 8.50 |
| response-generation-on-argscichat | LED(Q,F) | BScore: 86.64 Message-F1: 19.54 Mover: 8.53 |
| response-generation-on-argscichat | LED(Q,P,H) | BScore: 86.00 Message-F1: 16.14 Mover: 4.54 |
| response-generation-on-argscichat | LED(Q,P) | BScore: 85.85 Message-F1: 14.25 Mover: 2.25 |