
摘要
数据到文本(Data-to-text, D2T)生成是许多自然语言理解(NLU)应用中的关键任务,也是面向任务的对话系统的基础。在可以直接利用用户设备本地数据的会话式人工智能解决方案中,由于大型预训练语言模型(PLMs)具有较高的内存占用,因此不适合用于设备端部署。为此,我们提出了一种名为TrICy的新颖轻量级框架,该框架可以基于上下文中的意图生成文本序列,并且可以通过用户提供的触发器进一步指导生成过程。我们利用注意力复制机制来准确预测词汇表外(Out-of-Vocabulary, OOV)的词语。在E2E NLG数据集上的性能分析显示,TrICy的BLEU得分为66.43%,ROUGE-L得分为70.14%;在WebNLG数据集上,其BLEU得分分别为已见场景64.08%和未见场景52.35%;而在我们自定义的数据集(与短信应用程序相关)上,也展示了该架构的有效性。此外,我们证明了通过利用可选的触发器输入,数据到文本生成的质量显著提高,并在E2E NLG数据集上达到了新的最先进水平(SOTA),BLEU得分为69.29%。我们的分析还表明,与GPT-3、ChatGPT和Llama 2等大型语言模型相比,TrICy在BLEU和METEOR指标上分别至少提高了24%和3%。我们还展示了在某些情况下,即使训练过程中没有使用触发器,由于触发器的存在而带来的性能提升仍然明显。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-e2e-nlg-challenge | TrICy (trK = 0) | BLEU: 66.43 Number of parameters (M): 4.7 ROUGE-L: 70.14 |
| data-to-text-generation-on-webnlg | TrICy (trK = trk* = 0.24) | BLEU: 64.73 METEOR: 45.53 Number of parameters (M): 6.2 |
| data-to-text-generation-on-webnlg | TrICy (trK = 0) | BLEU: 64.08 METEOR: 45.23 Number of parameters (M): 6.2 |