4 个月前

TrICy:基于触发器的意图感知注意力-复制数据到文本生成

TrICy:基于触发器的意图感知注意力-复制数据到文本生成

摘要

数据到文本(Data-to-text, D2T)生成是许多自然语言理解(NLU)应用中的关键任务,也是面向任务的对话系统的基础。在可以直接利用用户设备本地数据的会话式人工智能解决方案中,由于大型预训练语言模型(PLMs)具有较高的内存占用,因此不适合用于设备端部署。为此,我们提出了一种名为TrICy的新颖轻量级框架,该框架可以基于上下文中的意图生成文本序列,并且可以通过用户提供的触发器进一步指导生成过程。我们利用注意力复制机制来准确预测词汇表外(Out-of-Vocabulary, OOV)的词语。在E2E NLG数据集上的性能分析显示,TrICy的BLEU得分为66.43%,ROUGE-L得分为70.14%;在WebNLG数据集上,其BLEU得分分别为已见场景64.08%和未见场景52.35%;而在我们自定义的数据集(与短信应用程序相关)上,也展示了该架构的有效性。此外,我们证明了通过利用可选的触发器输入,数据到文本生成的质量显著提高,并在E2E NLG数据集上达到了新的最先进水平(SOTA),BLEU得分为69.29%。我们的分析还表明,与GPT-3、ChatGPT和Llama 2等大型语言模型相比,TrICy在BLEU和METEOR指标上分别至少提高了24%和3%。我们还展示了在某些情况下,即使训练过程中没有使用触发器,由于触发器的存在而带来的性能提升仍然明显。

基准测试

基准方法指标
data-to-text-generation-on-e2e-nlg-challengeTrICy (trK = 0)
BLEU: 66.43
Number of parameters (M): 4.7
ROUGE-L: 70.14
data-to-text-generation-on-webnlgTrICy (trK = trk* = 0.24)
BLEU: 64.73
METEOR: 45.53
Number of parameters (M): 6.2
data-to-text-generation-on-webnlgTrICy (trK = 0)
BLEU: 64.08
METEOR: 45.23
Number of parameters (M): 6.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TrICy:基于触发器的意图感知注意力-复制数据到文本生成 | 论文 | HyperAI超神经