3 个月前

文本简化中的标记方法

文本简化中的标记方法

摘要

基于编辑(edit-based)的方法在多项单语序列转换任务中近期展现出令人瞩目的成果。与传统的序列到序列(Seq2Seq)模型不同——后者在平行语料上训练时从零开始生成文本——这类方法由于能够利用强大的预训练语言模型,学习快速且准确的文本转换,因而表现出更高的有效性。受此启发,我们提出了TST(Text Simplification via Tagging),一种基于序列标注的简洁高效文本简化系统,该系统依托预训练的基于Transformer的编码器。我们的方法通过对现有系统在训练和推理阶段进行简单的数据增强与调整,显著降低了对大规模平行训练数据的依赖,同时增强了输出控制能力,并实现了更快的推理速度。在基准测试数据集上,我们最优模型的表现接近当前最先进水平。由于系统完全采用非自回归(non-autoregressive)架构,其推理速度相较当前最先进的文本简化系统提升了超过11倍。

代码仓库

grammarly/gector
官方
pytorch

基准测试

基准方法指标
text-simplification-on-assetTST
SARI (EASSEu003e=0.2.1): 43.21
text-simplification-on-pwkp-wikismallTST
SARI: 44.67
SARI (EASSEu003e=0.2.1): 44.67
text-simplification-on-turkcorpusTST
SARI (EASSEu003e=0.2.1): 41.46

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本简化中的标记方法 | 论文 | HyperAI超神经