4 个月前

无监督神经文本简化

无监督神经文本简化

摘要

本文首次尝试了仅依赖未标注文本语料库的无监督神经文本简化方法。核心框架由一个共享编码器和一对注意力解码器组成,并通过基于判别损失和去噪的方法获取简化知识。该框架使用从英文维基百科转储中收集的未标注文本进行训练。我们对公共测试数据进行了分析(包括定量分析和涉及人类评估者的定性分析),结果显示所提出的模型能够在词汇和句法层面上执行文本简化,其性能可与现有的有监督方法相媲美。加入少量标注样本也能进一步提升模型的性能。

代码仓库

subramanyamdvss/UnsupNTS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-simplification-on-assetUNTS (Unsupervised)
BLEU: 76.14*
SARI (EASSEu003e=0.2.1): 35.19
text-simplification-on-turkcorpusUNMT (Unsupervised)
BLEU: 74.02
SARI (EASSEu003e=0.2.1): 37.20
text-simplification-on-turkcorpusUNTS-10k (Weakly supervised)
SARI (EASSEu003e=0.2.1): 37.15
text-simplification-on-turkcorpusUNTS (Unsupervised)
SARI (EASSEu003e=0.2.1): 36.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督神经文本简化 | 论文 | HyperAI超神经