4 个月前

基于结构化数据的神经文本生成及其在传记领域的应用

基于结构化数据的神经文本生成及其在传记领域的应用

摘要

本文介绍了一种用于从概念生成文本的神经模型,该模型可扩展至大型、丰富的领域。我们使用了一个来自维基百科的新数据集进行实验,该数据集包含超过70万条样本,比现有资源大一个数量级。此外,该数据集在词汇多样性方面也远超其他资源,拥有40万个词汇量,而Weathergov或Robocup的数据集仅包含几百个词汇。我们的模型基于近期关于条件神经语言模型在文本生成中的研究工作。为了应对庞大的词汇量,我们将这些模型扩展为结合固定词汇表与复制操作(copy actions),后者可以将输入数据库中特定样本的词语传输到生成的输出句子中。实验结果表明,我们的神经模型在这一任务上的表现显著优于传统的Kneser-Ney语言模型,BLEU分数提高了近15分。

代码仓库

nathanlesage/so-classifier
pytorch
GitHub 中提及
parajain/data-to-text
GitHub 中提及

基准测试

基准方法指标
table-to-text-generation-on-wikibioTable NLM
BLEU: 34.70
ROUGE: 25.80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于结构化数据的神经文本生成及其在传记领域的应用 | 论文 | HyperAI超神经