3 个月前

ToTTo:一个受控的表格到文本生成数据集

ToTTo:一个受控的表格到文本生成数据集

摘要

我们提出 ToTTo,一个开放域的英文表格到文本数据集,包含超过12万个训练样本,其任务设定为可控生成:给定一个维基百科表格及一组高亮的单元格,生成一句描述性文本。为确保生成的目标文本既自然又忠实于原始表格内容,我们设计了一种数据集构建流程,其中标注人员直接对维基百科中已有的候选句子进行修订。我们对数据集和标注过程进行了系统性分析,并报告了多种先进基线模型在该数据集上的实验结果。尽管现有方法通常能生成流畅的文本,但往往会产生表格中并未支持的虚构表述,这表明该数据集可作为高精度条件文本生成任务的重要研究基准。

代码仓库

google-research-datasets/ToTTo
官方
GitHub 中提及

基准测试

基准方法指标
data-to-text-generation-on-tottoNCP+CC (Puduppully et al 2019)
BLEU: 19.2
PARENT: 29.2
data-to-text-generation-on-tottoBERT-to-BERT
BLEU: 44
PARENT: 52.6
data-to-text-generation-on-tottoPointer Generator
BLEU: 41.6
PARENT: 51.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ToTTo:一个受控的表格到文本生成数据集 | 论文 | HyperAI超神经