
摘要
我们提出 ToTTo,一个开放域的英文表格到文本数据集,包含超过12万个训练样本,其任务设定为可控生成:给定一个维基百科表格及一组高亮的单元格,生成一句描述性文本。为确保生成的目标文本既自然又忠实于原始表格内容,我们设计了一种数据集构建流程,其中标注人员直接对维基百科中已有的候选句子进行修订。我们对数据集和标注过程进行了系统性分析,并报告了多种先进基线模型在该数据集上的实验结果。尽管现有方法通常能生成流畅的文本,但往往会产生表格中并未支持的虚构表述,这表明该数据集可作为高精度条件文本生成任务的重要研究基准。
代码仓库
google-research-datasets/ToTTo
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-totto | NCP+CC (Puduppully et al 2019) | BLEU: 19.2 PARENT: 29.2 |
| data-to-text-generation-on-totto | BERT-to-BERT | BLEU: 44 PARENT: 52.6 |
| data-to-text-generation-on-totto | Pointer Generator | BLEU: 41.6 PARENT: 51.6 |