4 个月前

基于大型语言模型的无本体通用领域知识图谱到文本生成数据集合成

基于大型语言模型的无本体通用领域知识图谱到文本生成数据集合成

摘要

知识图谱到文本(G2T)生成涉及将结构化的知识图谱转化为自然语言文本。预训练语言模型(PLMs)的最新进展已经提升了G2T的性能,但其效果依赖于具有精确图谱-文本对齐的数据集。然而,高质量、通用领域的G2T生成数据集的稀缺限制了该领域研究的进展。为了解决这一问题,我们引入了维基百科无本体图谱-文本数据集(WikiOFGraph),这是一个通过新颖方法生成的大规模G2T数据集,该方法结合了大型语言模型(LLM)和Data-QuestEval。我们的新数据集包含585万个通用领域的图谱-文本对,提供了高图谱-文本一致性,而无需依赖外部本体。实验结果表明,在WikiOFGraph上微调的PLM在各种评估指标上优于其他数据集上训练的模型。我们的方法被证明是一种可扩展且有效的解决方案,用于生成高质量的G2T数据,显著推进了G2T生成领域的发展。

代码仓库

daehuikim/WikiOFGraph
官方
GitHub 中提及

基准测试

基准方法指标
data-to-text-generation-on-genwikiT5-large
BLEU: 45.85
data-to-text-generation-on-wikiofgraphT5-large
BLEU: 69.27

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于大型语言模型的无本体通用领域知识图谱到文本生成数据集合成 | 论文 | HyperAI超神经