3 个月前

合同发现:数据集与少样本语义检索挑战及竞争性基线

合同发现:数据集与少样本语义检索挑战及竞争性基线

摘要

我们提出了一项新的共享任务:从法律文本中进行语义检索,具体为“合同发现”(contract discovery),即在提供其他法律文件中若干相似条款示例的前提下,从文档中提取出相应的法律条款。该任务与传统的自然语言推理(NLI)以及法律信息抽取类共享任务存在显著差异,主要体现在其需识别文本片段而非单个文档、页面或段落。在任务规范说明之后,本文在统一框架下对多种解决方案进行了评估。研究结果表明,当前最先进的预训练编码器在该任务上表现不佳,难以获得令人满意的结果。相比之下,基于语言模型(Language Model, LM)的解决方案表现更优,尤其在采用无监督微调(unsupervised fine-tuning)策略时效果更为显著。除消融实验外,本文还探讨了在不同示例数量条件下,相关文本片段检测准确率的变化情况。此外,除公开发布数据集与基准结果外,我们还开源了专为法律领域优化的语言模型,以促进该方向的研究发展。

代码仓库

applicaai/contract-discovery
官方
GitHub 中提及

基准测试

基准方法指标
semantic-retrieval-on-contract-discoveryk-NN with sentence n-grams, GPT-2 embeddings, fICA
Soft-F1: 0.51
semantic-retrieval-on-contract-discoveryHuman baseline
Soft-F1: 0.84
semantic-retrieval-on-contract-discoverySentence BERT
Soft-F1: 0.31
semantic-retrieval-on-contract-discoveryUniversal Sentence Encoder
Soft-F1: 0.38
semantic-retrieval-on-contract-discoveryLSA baseline
Soft-F1: 0.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
合同发现:数据集与少样本语义检索挑战及竞争性基线 | 论文 | HyperAI超神经