3 个月前

既要你的文本,也要用它!具备语义保真度的端到端神经数据到文本生成

既要你的文本,也要用它!具备语义保真度的端到端神经数据到文本生成

摘要

端到端神经数据到文本(Data-to-Text, D2T)生成近年来已成为传统流水线式架构的替代方案。然而,该方法在泛化至新领域以及生成语义一致的文本方面仍面临挑战。本文提出DataTuner,一种基于神经网络的端到端数据到文本生成系统,其对数据表示形式和目标领域均做出最少假设。我们采用两阶段生成-重排序框架,结合微调的语言模型与语义保真度分类器。系统中各组件均实现端到端学习,无需依赖特定数据集的启发式规则、实体去泛化(entity delexicalization)或后处理步骤。实验结果表明,DataTuner在四个主流D2T数据集(LDC2017T10、WebNLG、ViGGO和Cleaned E2E)上的自动评估指标上均达到当前最优水平,且经人工评估的流畅度接近甚至超过人类撰写的参考文本。此外,我们进一步证明,DataTuner中基于模型的语义保真度评分器相较于传统的基于启发式规则的评估方法具有更优的评估性能。在所有四个数据集上,DataTuner生成文本的语义保真度显著优于现有最先进方法。

代码仓库

基准测试

基准方法指标
data-to-text-generation-on-cleaned-e2e-nlg-1DataTuner_FC
BLEU (Test set): 43.6
data-to-text-generation-on-viggo-1DataTuner_FC
BLEU: 53.6
data-to-text-generation-on-webnlg-full-1DATATUNER_NO_FC
BLEU: 52.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
既要你的文本,也要用它!具备语义保真度的端到端神经数据到文本生成 | 论文 | HyperAI超神经