4 个月前

快速、有效且自监督:将掩码语言模型转化为通用词项和句子编码器

快速、有效且自监督:将掩码语言模型转化为通用词项和句子编码器

摘要

预训练的掩码语言模型(MLMs)在近年来彻底改变了自然语言处理(NLP)。然而,先前的研究表明,未经特定任务微调的现成MLMs在自然语言推理(NLI)、句子相似度或同义句任务中并不能作为有效的通用词汇或句子编码器,这些任务通常需要使用带有注释的任务数据进行微调。在这项工作中,我们展示了即使没有任何额外的数据和监督,也可以将MLMs转化为有效的通用词汇和句子编码器。我们提出了一种极其简单、快速且有效的对比学习技术,称为Mirror-BERT,该技术可以在20-30秒内将MLMs(例如BERT和RoBERTa)转换为这样的编码器,而无需任何额外的外部知识。Mirror-BERT依赖于完全相同或稍作修改的字符串对作为正例(即同义词)进行身份微调,并旨在最大化它们的相似度。我们在不同领域和不同语言的词汇级和句子级任务中报告了使用Mirror-BERT相比现成MLMs的巨大提升。值得注意的是,在标准的句子语义相似度(STS)任务中,我们的自监督Mirror-BERT模型甚至达到了之前研究中的任务微调Sentence-BERT模型的性能水平。最后,我们深入探讨了MLMs的内部机制,并提供了一些证据来解释为什么这种简单的技术可以产生有效的通用词汇和句子编码器。

代码仓库

cambridgeltl/mirror-bert
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-textual-similarity-on-sickMirror-RoBERTa-base (unsup.)
Spearman Correlation: 0.706
semantic-textual-similarity-on-sickMirror-BERT-base (unsup.)
Spearman Correlation: 0.703
semantic-textual-similarity-on-sts-benchmarkMirror-BERT-base (unsup.)
Spearman Correlation: 0.764
semantic-textual-similarity-on-sts-benchmarkMirror-RoBERTa-base (unsup.)
Spearman Correlation: 0.787
semantic-textual-similarity-on-sts12Mirror-BERT-base (unsup.)
Spearman Correlation: 0.674
semantic-textual-similarity-on-sts12Mirror-RoBERTa-base (unsup.)
Spearman Correlation: 0.648
semantic-textual-similarity-on-sts13Mirror-RoBERTa-base (unsup.)
Spearman Correlation: 0.819
semantic-textual-similarity-on-sts13Mirror-BERT-base (unsup.)
Spearman Correlation: 0.796
semantic-textual-similarity-on-sts14Mirror-BERT-base (unsup.)
Spearman Correlation: 0.713
semantic-textual-similarity-on-sts14Mirror-RoBERTa-base (unsup.)
Spearman Correlation: 0.732
semantic-textual-similarity-on-sts15Mirror-RoBERTa-base (unsup.)
Spearman Correlation: 0.798
semantic-textual-similarity-on-sts15Mirror-BERT-base (unsup.)
Spearman Correlation: 0.814
semantic-textual-similarity-on-sts16Mirror-RoBERTa-base (unsup.)
Spearman Correlation: 0.78
semantic-textual-similarity-on-sts16Mirror-BERT-base (unsup.)
Spearman Correlation: 0.743

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
快速、有效且自监督:将掩码语言模型转化为通用词项和句子编码器 | 论文 | HyperAI超神经