3 个月前

预训练语言模型中的句子嵌入

预训练语言模型中的句子嵌入

摘要

预训练的上下文表示模型(如 BERT)在自然语言处理领域取得了巨大成功。然而,未经微调的预训练语言模型所生成的句子嵌入,被发现难以有效捕捉句子的语义信息。本文认为,BERT 嵌入中蕴含的语义信息尚未得到充分挖掘。我们首先从理论上揭示了掩码语言建模预训练目标与语义相似性任务之间的内在联系,随后对 BERT 的句子嵌入进行了实证分析。研究发现,BERT 始终诱导出一种非平滑且各向异性的句子语义空间,这严重制约了其在语义相似性任务上的表现。为解决这一问题,我们提出通过无监督目标学习的归一化流(normalizing flows)对各向异性的句子嵌入分布进行转换,使其转化为平滑且各向同性的高斯分布。实验结果表明,所提出的 BERT-Flow 方法在多种语义文本相似性任务上显著优于当前最先进的句子嵌入方法。代码已开源,地址为:https://github.com/bohanli/BERT-flow。

代码仓库

bohanli/BERT-flow
官方
tf
GitHub 中提及
InsaneLife/dssm
tf
GitHub 中提及

基准测试

基准方法指标
semantic-textual-similarity-on-sickBERTbase-flow (NLI)
Spearman Correlation: 0.6544
semantic-textual-similarity-on-sts-benchmarkBERTlarge-flow (target)
Spearman Correlation: 0.7226
semantic-textual-similarity-on-sts12BERTlarge-flow (target)
Spearman Correlation: 0.6520
semantic-textual-similarity-on-sts13BERTlarge-flow (target)
Spearman Correlation: 0.7339
semantic-textual-similarity-on-sts14BERTlarge-flow (target)
Spearman Correlation: 0.6942
semantic-textual-similarity-on-sts15BERTlarge-flow (target)
Spearman Correlation: 0.7492
semantic-textual-similarity-on-sts16BERTlarge-flow (target)
Spearman Correlation: 0.7763

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
预训练语言模型中的句子嵌入 | 论文 | HyperAI超神经