3 个月前

基线方法的不合理有效性:探讨支持向量机在法律文本分类中的应用

基线方法的不合理有效性:探讨支持向量机在法律文本分类中的应用

摘要

我们旨在揭示一个引人关注的趋势,以推动关于法律领域自然语言处理(Legal NLP)进展的持续讨论。近年来,大多数法律文本分类任务的研究重心已转向基于大型预训练深度学习模型(如BERT)的方法。本文表明,一种更为传统的支持向量机(Support Vector Machine, SVM)分类方法,在LexGLUE基准测试的各类法律文本分类任务中,其性能竟与基于BERT的模型相当,表现令人意外地具有竞争力。此外,我们还指出,在法律领域中,相较于通用语言任务,采用专业化BERT模型相较于基线模型所带来的误差降低幅度明显较小。为此,本文提出并讨论了三个潜在解释假设,以期为未来相关研究与讨论提供参考。

基准测试

基准方法指标
natural-language-understanding-on-lexglueOptimised SVM Baseline
ECtHR Task A: 66.3 / 55.0
ECtHR Task B: 76.0 / 65.4
EUR-LEX: 65.7 / 49.0
LEDGAR: 88.0 / 82.6
SCOTUS: 74.4 / 64.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基线方法的不合理有效性:探讨支持向量机在法律文本分类中的应用 | 论文 | HyperAI超神经