
摘要
BERT在句对任务(如聚类或语义搜索)中效率较低,因为其需要对组合数量庞大的句对进行逐一评估,这一过程极为耗时。为应对这一挑战,Sentence BERT(SBERT)通过学习单个句子的语义有意义表示,使得句子间相似性比较能够高效实现。然而,SBERT的训练依赖于高质量标注的句对语料库,这限制了其在标注数据极度稀缺任务中的应用。本文提出了一种轻量级的BERT扩展方法,并设计了一种基于互信息最大化策略的新型自监督学习目标,从而在无监督条件下生成具有语义意义的句子嵌入表示。与SBERT不同,本方法不依赖于标注数据的可用性,因此可广泛应用于不同领域特定的语料库。实验结果表明,所提出的方法在常见的语义文本相似性(STS)任务及下游监督任务中,显著优于其他无监督句子嵌入基线方法。此外,在缺乏领域内标注数据的场景下,该方法的表现甚至超越SBERT,并在多项任务上达到与监督学习方法相媲美的性能。
代码仓库
yanzhangnlp/IS-BERT
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-textual-similarity-on-sick | IS-BERT-NLI | Spearman Correlation: 0.6425 |
| semantic-textual-similarity-on-sts-benchmark | IS-BERT-NLI | Spearman Correlation: 0.6921 |
| semantic-textual-similarity-on-sts12 | IS-BERT-NLI | Spearman Correlation: 0.5677 |
| semantic-textual-similarity-on-sts13 | IS-BERT-NLI | Spearman Correlation: 0.6924 |
| semantic-textual-similarity-on-sts14 | IS-BERT-NLI | Spearman Correlation: 0.6121 |
| semantic-textual-similarity-on-sts15 | IS-BERT-NLI | Spearman Correlation: 0.7523 |
| semantic-textual-similarity-on-sts16 | IS-BERT-NLI | Spearman Correlation: 0.7016 |