3 个月前

提升文本可读性评估:Transformer融合手工设计语言特征

提升文本可读性评估:Transformer融合手工设计语言特征

摘要

我们报告了可读性评估领域的两项关键改进:其一,引入了三项基于高级语义的新特征;其二,提供了及时的实证证据,表明传统机器学习模型(如随机森林,采用人工设计特征)可与Transformer模型(如RoBERTa)相结合,从而显著提升模型性能。首先,我们系统探索了适用于该任务的预训练Transformer模型与传统机器学习模型的组合方式;其次,我们利用自主研发的特征提取软件,手工提取了255个语言学特征;最后,我们将这些特征与深度学习模型融合,构建了多种混合模型,在主流可读性评估数据集上取得了当前最优(SOTA)的准确率。研究表明,人工设计特征在小规模数据集上对模型性能具有显著增益。尤为突出的是,我们的RoBERTa-RF-T1混合模型实现了接近完美的分类准确率99%,相较于此前的SOTA模型提升了20.3%。

代码仓库

基准测试

基准方法指标
text-classification-on-onestopenglishRoBERTa-RF-T1 hybrid
Accuracy (5-fold): 0.990
text-classification-on-weebit-readabilityBART-RF-T1 hybrid
Accuracy (5-fold): 0.905

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
提升文本可读性评估:Transformer融合手工设计语言特征 | 论文 | HyperAI超神经