6 个月前

自然语言处理

Hamza Harkous Isabel Groves Amir Saffari

摘要

端到端神经数据到文本（Data-to-Text, D2T）生成近年来已成为传统流水线式架构的替代方案。然而，该方法在泛化至新领域以及生成语义一致的文本方面仍面临挑战。本文提出DataTuner，一种基于神经网络的端到端数据到文本生成系统，其对数据表示形式和目标领域均做出最少假设。我们采用两阶段生成-重排序框架，结合微调的语言模型与语义保真度分类器。系统中各组件均实现端到端学习，无需依赖特定数据集的启发式规则、实体去泛化（entity delexicalization）或后处理步骤。实验结果表明，DataTuner在四个主流D2T数据集（LDC2017T10、WebNLG、ViGGO和Cleaned E2E）上的自动评估指标上均达到当前最优水平，且经人工评估的流畅度接近甚至超过人类撰写的参考文本。此外，我们进一步证明，DataTuner中基于模型的语义保真度评分器相较于传统的基于启发式规则的评估方法具有更优的评估性能。在所有四个数据集上，DataTuner生成文本的语义保真度显著优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Hamza Harkous Isabel Groves Amir Saffari

摘要

端到端神经数据到文本（Data-to-Text, D2T）生成近年来已成为传统流水线式架构的替代方案。然而，该方法在泛化至新领域以及生成语义一致的文本方面仍面临挑战。本文提出DataTuner，一种基于神经网络的端到端数据到文本生成系统，其对数据表示形式和目标领域均做出最少假设。我们采用两阶段生成-重排序框架，结合微调的语言模型与语义保真度分类器。系统中各组件均实现端到端学习，无需依赖特定数据集的启发式规则、实体去泛化（entity delexicalization）或后处理步骤。实验结果表明，DataTuner在四个主流D2T数据集（LDC2017T10、WebNLG、ViGGO和Cleaned E2E）上的自动评估指标上均达到当前最优水平，且经人工评估的流畅度接近甚至超过人类撰写的参考文本。此外，我们进一步证明，DataTuner中基于模型的语义保真度评分器相较于传统的基于启发式规则的评估方法具有更优的评估性能。在所有四个数据集上，DataTuner生成文本的语义保真度显著优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供