4 个月前

TextBox 2.0:基于预训练语言模型的文本生成库

TextBox 2.0:基于预训练语言模型的文本生成库

摘要

为了促进文本生成领域的研究,本文介绍了一个全面且统一的库——TextBox 2.0,专注于预训练语言模型(PLMs)的应用。为了实现全面性,我们的库涵盖了13种常见的文本生成任务及其对应的83个数据集,并进一步整合了45种PLMs,包括通用型、翻译型、中文型、对话型、可控型、蒸馏型、提示型和轻量级PLMs。我们还实现了4种高效的训练策略,并提供了4种生成目标,用于从零开始预训练新的PLMs。为了实现统一性,我们设计了支持整个研究流程(从数据加载到训练和评估)的接口,确保每个步骤都能以统一的方式完成。尽管功能丰富,但使用我们的库非常方便,既可以通过友好的Python API进行操作,也可以通过命令行进行使用。为了验证我们库的有效性,我们进行了广泛的实验,并展示了四种类型的研究场景。该项目已发布在以下链接:https://github.com/RUCAIBox/TextBox。

代码仓库

RUCAIBox/TextBox
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
abstractive-text-summarization-on-cnn-daily-2BART (TextBox 2.0)
ROUGE-1: 44.47
ROUGE-2: 21.5
ROUGE-L: 41.35
data-to-text-generation-on-webnlgBART (TextBox 2.0)
BLEU-4: 67.33
METEOR: 47.78
ROUGE-L: 76.83
dialogue-on-persona-chatBART (TextBox 2.0)
BLEU-1: 49.581
BLEU-2: 39.24
Distinct-1: 1.44
Distinct-2: 8.89
machine-translation-on-wmt2016-english-1BART (TextBox 2.0)
BLEU-4: 37.2
machine-translation-on-wmt2016-romanianBART (TextBox 2.0)
BLEU-4: 37.48
question-answering-on-squad11BART (TextBox 2.0)
Exact Match: 86.44
F1: 93.04
question-generation-on-squad11BART (TextBox 2.0)
BLEU-4: 25.08
METEOR: 26.73
ROUGE-L: 52.55
story-generation-on-writingpromptsBART (TextBox 2.0)
BLEU-1: 33.79
BLEU-2: 15.78
Distinct-4: 78.762
style-transfer-on-gyafcBART (TextBox 2.0)
Accuracy: 94.37
BLEU-4: 76.93
Harmonic mean: 84.74
task-oriented-dialogue-systems-on-multiwoz-2BART (TextBox 2.0)
BLEU-4: 20.17
Score: 100.07
text-generation-on-adgenBART (TextBox 2.0)
BLEU-4: 10.2
text-generation-on-commongen-1BART (TextBox 2.0)
BLEU-4: 28.18
CIDEr: 12.98
SPICE: 33
text-generation-on-cslBART (TextBox 2.0)
ROUGE-L: 64.34
text-generation-on-lcstsBART (TextBox 2.0)
ROUGE-L: 42.96
text-simplification-on-wiki-auto-turkBART (TextBox 2.0)
BLEU-4: 90.81
METEOR: 57.58
ROUGE-2: 83.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TextBox 2.0:基于预训练语言模型的文本生成库 | 论文 | HyperAI超神经