3 个月前

提升上下文感知序列到序列模型中的条件生成能力

提升上下文感知序列到序列模型中的条件生成能力

摘要

序列到序列(sequence-to-sequence)神经网络模型在可建模为从单一输入序列映射到单一输出序列的任务中已得到广泛应用。本文聚焦于生成过程同时依赖于短查询(short query)和长上下文(long context)的情形,例如摘要式问答(abstractive question answering)或文档级机器翻译(document-level translation)。为此,我们对标准的序列到序列框架进行了改进,通过扩展条件化机制,将查询与上下文的注意力机制进行交织融合,从而更有效地利用两者信息。此外,我们提出了一种简单而高效的训练数据增强方法,以进一步提升模型性能。在三个不同任务上的实验结果表明,上述两项改进均带来了稳定且一致的性能提升。

基准测试

基准方法指标
open-domain-question-answering-on-eli5Multi-Inrerleave
Rouge-1: 23.32
Rouge-2: 4.79
Rouge-L: 14.63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
提升上下文感知序列到序列模型中的条件生成能力 | 论文 | HyperAI超神经