3 个月前

官方文本来源推断:SVM 能否超越 ULMFiT?

官方文本来源推断:SVM 能否超越 ULMFiT?

摘要

官方公报是公众获取相关信息的重要信息来源。对其内容进行细致审查,有助于发现可能引发公共资金管理不当的欺诈行为与异常情况。本文提出一个数据集,其中包含来自联邦区官方公报的文档,涵盖带有文档来源标注的样本以及未标注的样本。我们训练、评估并比较了一种基于迁移学习的模型(采用ULMFiT方法),与传统基于词袋模型(Bag-of-Words)的分类器(分别使用支持向量机SVM和朴素贝叶斯Naive Bayes)的性能表现。研究结果表明,SVM模型具有较强的竞争力,其性能略逊于ULMFiT模型,但训练与推理速度显著更快,且计算资源消耗更低。最后,我们通过消融实验(ablation analysis)评估了ULMFiT各组成部分对整体性能的影响。

基准测试

基准方法指标
text-classification-on-dodf-dataSVM + tf-idf (no pre-trained vocab)
Average F1: 0.8755
Weighted F1: 0.8917
text-classification-on-dodf-dataULMFiT (pre-trained vocab, no gradual unfreezing)
Average F1: 0.8918
Weighted F1: 0.9257
text-classification-on-dodf-dataSVM + word counts (pre-trained vocab)
Average F1: 0.8782
Weighted F1: 0.9049
text-classification-on-dodf-dataULMFiT (pre-trained vocab)
Average F1: 0.8374
Weighted F1: 0.9088
text-classification-on-dodf-dataULMFiT (no pre-trained vocab)
Average F1: 0.8469
Weighted F1: 0.8974

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
官方文本来源推断:SVM 能否超越 ULMFiT? | 论文 | HyperAI超神经