3 个月前

AnglE优化的文本嵌入

AnglE优化的文本嵌入

摘要

高质量的文本嵌入在提升语义文本相似度(Semantic Textual Similarity, STS)任务性能方面起着关键作用,而STS任务是大型语言模型(Large Language Model, LLM)应用中的核心组成部分。然而,现有文本嵌入模型普遍面临梯度消失问题,其主要成因在于优化目标中依赖余弦函数,而该函数存在饱和区域,导致梯度衰减。为解决这一问题,本文提出一种新型角度优化文本嵌入模型——AnglE。AnglE的核心思想是在复数空间中引入角度优化机制,该方法有效缓解了余弦函数饱和区域带来的负面影响,显著改善了梯度传播,从而提升优化效率。为全面评估STS性能,我们在现有的短文本STS数据集以及从GitHub Issues中新收集的长文本STS数据集上进行了实验。此外,针对标注数据有限的特定领域STS场景,我们进一步探讨了AnglE在结合LLM生成标注数据时的表现。在多种任务上开展了广泛实验,涵盖短文本STS、长文本STS以及领域特定STS任务。实验结果表明,AnglE在性能上显著优于当前最先进的STS模型,尤其是那些未考虑余弦函数饱和问题的模型。这些成果充分证明了AnglE在生成高质量文本嵌入方面的优越能力,同时也验证了角度优化在STS任务中的有效性与实用性。

代码仓库

SeanLee97/AnglE
官方
pytorch
GitHub 中提及
4ai/bellm
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-textual-similarity-on-mtebAnglE-UAE
Spearman Correlation: 84.54
semantic-textual-similarity-on-sick-r-1AnglE-LLaMA-7B
Spearman Correlation: 0.8094
semantic-textual-similarity-on-sick-r-1AnglE-LLaMA-13B
Spearman Correlation: 0. 8132
semantic-textual-similarity-on-sts-benchmarkAnglE-LLaMA-13B
Spearman Correlation: 0.8969
semantic-textual-similarity-on-sts-benchmarkAnglE-LLaMA-7B
Spearman Correlation: 0.8897
semantic-textual-similarity-on-sts-benchmarkAnglE-LLaMA-7B-v2
Spearman Correlation: 0.8897
semantic-textual-similarity-on-sts12AnglE-LLaMA-7B
Spearman Correlation: 0.7868
semantic-textual-similarity-on-sts12AnglE-LLaMA-13B
Spearman Correlation: 0.7868
semantic-textual-similarity-on-sts13AnglE-LLaMA-7B-v2
Spearman Correlation: 0.9056
semantic-textual-similarity-on-sts13AnglE-LLaMA-7B
Spearman Correlation: 0.9058
semantic-textual-similarity-on-sts14AnglE-LLaMA-7B-v2
Spearman Correlation: 0.8579
semantic-textual-similarity-on-sts14AnglE-LLaMA-13B
Spearman Correlation: 0.8689
semantic-textual-similarity-on-sts14AnglE-LLaMA-7B
Spearman Correlation: 0.8549
semantic-textual-similarity-on-sts15AnglE-LLaMA-13B
Spearman Correlation: 0.8956
semantic-textual-similarity-on-sts15AnglE-LLaMA-7B-v2
Spearman Correlation: 0.8943
semantic-textual-similarity-on-sts16AnglE-LLaMA-13B
Spearman Correlation: 0.8700
semantic-textual-similarity-on-sts16AnglE-LLaMA-7B
Spearman Correlation: 0.8691
semantic-textual-similarity-on-sts16AnglE-LLaMA-7B-v2
Spearman Correlation: 0.8700
sentiment-analysis-on-crAnglE-LLaMA-7B
Accuracy: 93.54
sentiment-analysis-on-mrAnglE-LLaMA-7B
Accuracy: 91.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AnglE优化的文本嵌入 | 论文 | HyperAI超神经