HyperAI超神经

摘要

我们提出 ToTTo，一个开放域的英文表格到文本数据集，包含超过12万个训练样本，其任务设定为可控生成：给定一个维基百科表格及一组高亮的单元格，生成一句描述性文本。为确保生成的目标文本既自然又忠实于原始表格内容，我们设计了一种数据集构建流程，其中标注人员直接对维基百科中已有的候选句子进行修订。我们对数据集和标注过程进行了系统性分析，并报告了多种先进基线模型在该数据集上的实验结果。尽管现有方法通常能生成流畅的文本，但往往会产生表格中并未支持的虚构表述，这表明该数据集可作为高精度条件文本生成任务的重要研究基准。

摘要

Ankur P. Parikh Xuezhi Wang Sebastian Gehrmann Manaal Faruqui Bhuwan Dhingra Diyi Yang Dipanjan Das

摘要

用 AI 构建 AI

HyperAI Newsletters

Ankur P. Parikh Xuezhi Wang Sebastian Gehrmann Manaal Faruqui Bhuwan Dhingra Diyi Yang Dipanjan Das

摘要

用 AI 构建 AI

HyperAI Newsletters

Ankur P. Parikh Xuezhi Wang Sebastian Gehrmann Manaal Faruqui Bhuwan Dhingra Diyi Yang Dipanjan Das

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ToTTo：一个受控的表格到文本生成数据集

Ankur P. Parikh Xuezhi Wang Sebastian Gehrmann Manaal Faruqui Bhuwan Dhingra Diyi Yang Dipanjan Das

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ToTTo：一个受控的表格到文本生成数据集

Ankur P. Parikh Xuezhi Wang Sebastian Gehrmann Manaal Faruqui Bhuwan Dhingra Diyi Yang Dipanjan Das

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ToTTo：一个受控的表格到文本生成数据集

Ankur P. Parikh Xuezhi Wang Sebastian Gehrmann Manaal Faruqui Bhuwan Dhingra Diyi Yang Dipanjan Das

摘要

用 AI 构建 AI

HyperAI Newsletters