3 个月前

用于数据到文本生成的变分模板机

用于数据到文本生成的变分模板机

摘要

如何从以表格形式组织的结构化数据中生成描述性文本?现有的基于神经编码器-解码器模型的方法通常存在生成结果缺乏多样性的问题。我们认为,采用开放式的模板集合对于丰富短语结构并实现多样化的文本生成至关重要。然而,学习此类模板往往成本高昂,因为这通常需要大规模的配对数据集(即<表格, 描述>对),而这类数据在实际中极为稀缺。本文探讨了如何从配对与非配对数据中自动学习可复用的“模板”这一问题。为此,我们提出了一种新颖的方法——变分模板机(Variational Template Machine, VTM),用于从数据表中生成文本描述。本文的主要贡献包括:a) 我们精心设计了一种特定的模型架构及损失函数,能够在潜在空间中显式地解耦文本模板与语义内容信息;b) 我们同时利用少量平行数据(即配对的表格与描述)和大量未对齐的原始文本数据,以增强模板学习的丰富性与泛化能力。在多个不同领域的数据集上进行的实验表明,VTM能够在保持良好流畅性与生成质量的前提下,显著提升生成文本的多样性。

代码仓库

基准测试

基准方法指标
table-to-text-generation-on-wikipedia-personVTM
BLEU: 25.22
ROUGE: 45.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于数据到文本生成的变分模板机 | 论文 | HyperAI超神经