
摘要
近年来,人们对于总结对话线程(如会议、在线讨论等)这一具有挑战性的任务产生了浓厚兴趣。此类摘要有助于快速了解长篇文本中的决策过程,从而提高我们的工作效率或沟通效率。为了推动对话线程摘要的研究,我们开发了一个抽象式电子邮件线程摘要(EmailSum)数据集,该数据集包含2549封电子邮件线程(每条线程包含3到10封邮件)的人工标注短摘要(<30词)和长摘要(<100词),涵盖了广泛的主题。我们进行了全面的实证研究,探索了不同的摘要生成技术(包括抽取式和抽象式方法、单文档模型和层次模型,以及迁移学习和半监督学习),并对短摘要和长摘要生成任务进行了人工评估。研究结果揭示了当前抽象式摘要生成模型在这一任务中面临的关键挑战,例如理解发件人的意图和识别发件人与收件人的角色。此外,我们发现常用的自动评估指标(如ROUGE、BERTScore)与人类对电子邮件线程摘要任务的判断相关性较弱。因此,我们强调社区应重视人工评估并开发更好的评估指标。我们的代码和摘要数据已发布在:https://github.com/ZhangShiyue/EmailSum
代码仓库
ZhangShiyue/EmailSum
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| email-thread-summarization-on-emailsum-long | T5base | BertS: 32.09 RLsum: 39.88 ROUGE-1: 43.81 ROUGE-2: 14.08 ROUGE-L: 30.47 |
| email-thread-summarization-on-emailsum-long | Oracle | BertS: 26.31 RLsum: 42.14 ROUGE-1: 45.98 ROUGE-2: 15.49 ROUGE-L: 32.4 |
| email-thread-summarization-on-emailsum-long | SemiSuptogether | BertS: 32.3 RLsum: 40.67 ROUGE-1: 44.08 ROUGE-2: 14.06 ROUGE-L: 31.17 |
| email-thread-summarization-on-emailsum-short | SemiSuptogether | BertS: 33.91 RLsum: 33.7 ROUGE-1: 36.98 ROUGE-2: 11.21 ROUGE-L: 28.76 |
| email-thread-summarization-on-emailsum-short | T5base | BertS: 33.9 RLsum: 32.76 ROUGE-1: 36.57 ROUGE-2: 10.56 ROUGE-L: 28.3 |
| email-thread-summarization-on-emailsum-short | Oracle | BertS: 22.32 RLsum: 35.61 ROUGE-1: 39.04 ROUGE-2: 12.47 ROUGE-L: 30.17 |