摘要
官方公报是公众获取相关信息的重要信息来源。对其内容进行细致审查,有助于发现可能引发公共资金管理不当的欺诈行为与异常情况。本文提出一个数据集,其中包含来自联邦区官方公报的文档,涵盖带有文档来源标注的样本以及未标注的样本。我们训练、评估并比较了一种基于迁移学习的模型(采用ULMFiT方法),与传统基于词袋模型(Bag-of-Words)的分类器(分别使用支持向量机SVM和朴素贝叶斯Naive Bayes)的性能表现。研究结果表明,SVM模型具有较强的竞争力,其性能略逊于ULMFiT模型,但训练与推理速度显著更快,且计算资源消耗更低。最后,我们通过消融实验(ablation analysis)评估了ULMFiT各组成部分对整体性能的影响。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-classification-on-dodf-data | SVM + tf-idf (no pre-trained vocab) | Average F1: 0.8755 Weighted F1: 0.8917 |
| text-classification-on-dodf-data | ULMFiT (pre-trained vocab, no gradual unfreezing) | Average F1: 0.8918 Weighted F1: 0.9257 |
| text-classification-on-dodf-data | SVM + word counts (pre-trained vocab) | Average F1: 0.8782 Weighted F1: 0.9049 |
| text-classification-on-dodf-data | ULMFiT (pre-trained vocab) | Average F1: 0.8374 Weighted F1: 0.9088 |
| text-classification-on-dodf-data | ULMFiT (no pre-trained vocab) | Average F1: 0.8469 Weighted F1: 0.8974 |