
摘要
预训练语言模型在捕捉语言的隐含特征方面已展现出独特优势。然而,大多数预训练方法主要关注词级训练目标,而对句级目标的研究则相对较少。本文提出了一种基于对比学习的句向量表示方法——CLEAR(Contrastive LEArning for sentence Representation),该方法通过引入多种句级数据增强策略,旨在学习对噪声具有鲁棒性的句向量表示。这些增强策略包括词语与短语删除、重排以及替换等。此外,我们通过大量实验深入探究了对比学习有效性的关键原因。实验结果表明,预训练阶段采用的不同句级增强方式会在各类下游任务上带来差异化的性能提升。在SentEval和GLUE两个基准测试中,所提出的CLEAR方法均显著优于多种现有方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| linguistic-acceptability-on-cola | MLM+ del-span+ reorder | Accuracy: 64.3% |
| natural-language-inference-on-qnli | MLM+ subs+ del-span | Accuracy: 93.4% |
| natural-language-inference-on-rte | MLM+ del-span | Accuracy: 79.8% |
| question-answering-on-quora-question-pairs | MLM+ subs+ del-span | Accuracy: 90.3% |
| semantic-textual-similarity-on-mrpc | MLM+ del-word+ reorder | Accuracy: 90.6% |
| semantic-textual-similarity-on-sts-benchmark | MLM+ del-word | Pearson Correlation: 0.905 |
| sentiment-analysis-on-sst-2-binary | MLM+ del-word+ reorder | Accuracy: 94.5 |