
摘要
我们提出 HTLM,一种在大规模网络爬取数据上训练的超文本语言模型。对超文本进行建模具有多项优势:(1)可大规模高效获取;(2)提供了丰富的文档级监督信息以及与下游任务紧密相关的标注信号(例如,class 和 id 属性通常编码了文档类别信息);(3)支持基于 HTML 语义结构的新型结构化提示方式(例如,通过填充包含输入文本的网页的 title 标签,实现零样本摘要生成)。我们证明,在简化版 HTML 上直接采用类似 BART 的去噪损失进行预训练,能够为多种下游任务和不同监督水平提供高效的迁移能力。在零样本提示和微调任务中,HTLM 在分类基准测试上的表现与同等规模的纯文本语言模型相当或更优,同时在零样本摘要任务中达到了新的最先进水平。此外,我们发现,相较于现有语言模型所使用的纯文本提示,超文本提示在数据效率方面为 HTLM 提供了更大价值;且 HTLM 能够高效地实现自我提示,仅需对可用训练数据生成最可能的超文本格式即可。我们将开源全部代码与模型,以支持未来在 HTLM 方向上的研究工作。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-to-text-generation-on-webnlg | HTML (fine-tuning) | BLEU: 65.4 |
| data-to-text-generation-on-webnlg-full-1 | HTLM (prefix 0.1%) | BLEU: 56.3 |
| table-to-text-generation-on-dart | GPT-2-Large (fine-tuning) | BERT: 0.94 BLEU: 47.0 BLEURT: 0.4 METEOR: 0.39 Mover: 0.51 TER: 0.46 |
| table-to-text-generation-on-dart | HTLM (fine-tuning) | BERT: 0.94 BLEU: 47.2 BLEURT: 0.4 METEOR: 0.39 Mover: 0.51 TER: 0.44 |
| table-to-text-generation-on-e2e | HTLM (fine-tuning) | BLEU: 70.3 CIDEr: 2.47 METEOR: 46.3 NIST: 8.90 ROUGE-L: 70.8 |
| table-to-text-generation-on-e2e | GPT-2-Large (fine-tuning) | BLEU: 68.5 CIDEr: 2.45 METEOR: 46.0 NIST: 8.78 ROUGE-L: 69.9 |
| table-to-text-generation-on-webnlg-all | GPT-2-Large (fine-tuning) | BLEU: 55.5 METEOR: 0.42 TER: 0.42 |
| table-to-text-generation-on-webnlg-all | HTLM (fine-tuning) | BLEU: 55.6 METEOR: 0.42 TER: 0.4 |
| table-to-text-generation-on-webnlg-seen | HTLM (fine-tuning) | BLEU: 65.4 METEOR: 0.46 TER: 0.33 |
| table-to-text-generation-on-webnlg-seen | GPT-2-Large (fine-tuning) | BLEU: 65.3 METEOR: 0.46 TER: 0.33 |
| table-to-text-generation-on-webnlg-unseen | GPT-2-Large (fine-tuning) | BLEU: 43.1 METEOR: 0.38 TER: 0.53 |
| table-to-text-generation-on-webnlg-unseen | HTLM (fine-tuning) | BLEU: 48.4 METEOR: 0.39 TER: 0.51 |