
摘要
我们旨在揭示一个引人关注的趋势,以推动关于法律领域自然语言处理(Legal NLP)进展的持续讨论。近年来,大多数法律文本分类任务的研究重心已转向基于大型预训练深度学习模型(如BERT)的方法。本文表明,一种更为传统的支持向量机(Support Vector Machine, SVM)分类方法,在LexGLUE基准测试的各类法律文本分类任务中,其性能竟与基于BERT的模型相当,表现令人意外地具有竞争力。此外,我们还指出,在法律领域中,相较于通用语言任务,采用专业化BERT模型相较于基线模型所带来的误差降低幅度明显较小。为此,本文提出并讨论了三个潜在解释假设,以期为未来相关研究与讨论提供参考。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-understanding-on-lexglue | Optimised SVM Baseline | ECtHR Task A: 66.3 / 55.0 ECtHR Task B: 76.0 / 65.4 EUR-LEX: 65.7 / 49.0 LEDGAR: 88.0 / 82.6 SCOTUS: 74.4 / 64.5 |