6 个月前

自然语言处理

Kostiantyn Omelianchuk Vipul Raheja Oleksandr Skurzhanskyi

摘要

基于编辑（edit-based）的方法在多项单语序列转换任务中近期展现出令人瞩目的成果。与传统的序列到序列（Seq2Seq）模型不同——后者在平行语料上训练时从零开始生成文本——这类方法由于能够利用强大的预训练语言模型，学习快速且准确的文本转换，因而表现出更高的有效性。受此启发，我们提出了TST（Text Simplification via Tagging），一种基于序列标注的简洁高效文本简化系统，该系统依托预训练的基于Transformer的编码器。我们的方法通过对现有系统在训练和推理阶段进行简单的数据增强与调整，显著降低了对大规模平行训练数据的依赖，同时增强了输出控制能力，并实现了更快的推理速度。在基准测试数据集上，我们最优模型的表现接近当前最先进水平。由于系统完全采用非自回归（non-autoregressive）架构，其推理速度相较当前最先进的文本简化系统提升了超过11倍。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Kostiantyn Omelianchuk Vipul Raheja Oleksandr Skurzhanskyi

摘要

基于编辑（edit-based）的方法在多项单语序列转换任务中近期展现出令人瞩目的成果。与传统的序列到序列（Seq2Seq）模型不同——后者在平行语料上训练时从零开始生成文本——这类方法由于能够利用强大的预训练语言模型，学习快速且准确的文本转换，因而表现出更高的有效性。受此启发，我们提出了TST（Text Simplification via Tagging），一种基于序列标注的简洁高效文本简化系统，该系统依托预训练的基于Transformer的编码器。我们的方法通过对现有系统在训练和推理阶段进行简单的数据增强与调整，显著降低了对大规模平行训练数据的依赖，同时增强了输出控制能力，并实现了更快的推理速度。在基准测试数据集上，我们最优模型的表现接近当前最先进水平。由于系统完全采用非自回归（non-autoregressive）架构，其推理速度相较当前最先进的文本简化系统提升了超过11倍。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供