
摘要
大型语言模型(LLMs)能够通过提示技术生成跨领域的流畅摘要,减少了为摘要应用专门训练模型的需求。然而,设计有效的提示以引导LLMs生成具有适当细节水平和写作风格的摘要仍然是一个挑战。在本文中,我们探讨了从源文档中提取显著信息以增强摘要提示的使用方法。研究表明,在提示中添加关键词可以提高ROUGE F1分数和召回率,使生成的摘要更加接近参考摘要且更为完整。关键词的数量可以控制精确率与召回率之间的权衡。此外,我们的分析表明,融入短语级别的显著信息优于单词或句子级别。然而,这种做法对不同LLM中的幻觉现象影响并不普遍积极。为了进行这项分析,我们引入了一种轻量级模型——关键短语信号提取器(SigExt),该模型可以通过微调来提取显著的关键短语。通过使用SigExt,我们在多个数据集和开放权重及专有LLM上实现了稳定的ROUGE分数提升,而无需对LLM进行任何定制。我们的研究结果为利用显著信息构建基于提示的摘要系统提供了洞见。我们已将代码发布在 \url{https://github.com/amazon-science/SigExt}。注:ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估自动文本摘要质量的评价指标;幻觉现象指的是模型生成的内容与原始输入不符的情况。
代码仓库
amazon-science/SigExt
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| abstractive-text-summarization-on-cnn-daily-2 | Claude Instant + SigExt | ROUGE-1: 42 ROUGE-L: 26.6 |
| text-summarization-on-arxiv-summarization | Claude Instant + SigExt | ROUGE-1: 45.2 ROUGE-L: 23.5 |
| text-summarization-on-meetingbank | Claude Instant + SigExt | ROUGE-L: 31.9 Rouge-1: 42.3 |
| text-summarization-on-samsum-corpus | Mistral 7B + SigExt | ROUGE-1: 44.1 ROUGE-L: 33.9 |