3 个月前

GenWiki:一个包含130万条内容共享文本与图结构的自监督图到文本生成数据集

GenWiki:一个包含130万条内容共享文本与图结构的自监督图到文本生成数据集

摘要

知识图谱到文本生成的数据收集成本高昂,因此近年来无监督模型的研究成为活跃领域。然而,大多数无监督模型不得不依赖现有小型监督数据集的非平行版本,这在很大程度上限制了其潜力。本文提出一个大规模、通用领域的数据集——GenWiki。该无监督数据集分别包含130万条文本和图谱样本。同时,我们构建了一个人工标注的测试集,为未来基于知识图谱的无监督文本生成研究提供了一个新的基准数据集。

基准测试

基准方法指标
unsupervised-kg-to-text-generation-on-genwikiCycleGT_Warm
BLEU: 41.35
CIDEr: 3.45
METEOR: 35.20
ROUGE-L: 63.01
unsupervised-kg-to-text-generation-on-genwikiRule-Based
BLEU: 13.45
CIDEr: 1.26
METEOR: 30.72
ROUGE-L: 40.93
unsupervised-kg-to-text-generation-on-genwikiNoisySupervised
BLEU: 30.12
CIDEr: 2.52
METEOR: 28.12
ROUGE-L: 56.96
unsupervised-kg-to-text-generation-on-genwikiCycleGT_Base
BLEU: 41.59
CIDEr: 3.57
METEOR: 35.72
ROUGE-L: 63.31
unsupervised-kg-to-text-generation-on-genwikiDirectTransfer
BLEU: 13.89
CIDEr: 1.26
METEOR: 25.76
ROUGE-L: 39.75
unsupervised-kg-to-text-generation-on-genwiki-1CycleGT_Warm
BLEU: 40.47
CIDEr: 3.48
METEOR: 34.84
ROUGE-L: 63.40
unsupervised-kg-to-text-generation-on-genwiki-1CycleGT_Base
BLEU: 41.29
CIDEr: 3.53
METEOR: 35.39
ROUGE-L: 63.73
unsupervised-kg-to-text-generation-on-genwiki-1DirectTransfer
BLEU: 13.89
CIDEr: 1.26
METEOR: 25.76
ROUGE-L: 39.75
unsupervised-kg-to-text-generation-on-genwiki-1Rule-Based
BLEU: 13.45
CIDEr: 1.26
METEOR: 30.72
ROUGE-L: 40.93
unsupervised-kg-to-text-generation-on-genwiki-1NoisySupervised
BLEU: 35.03
CIDEr: 2.63
METEOR: 33.45
ROUGE-L: 58.14

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GenWiki:一个包含130万条内容共享文本与图结构的自监督图到文本生成数据集 | 论文 | HyperAI超神经