6 个月前

自然语言处理

多模态表征

自然语言处理

Yan Zhang Ruidan He Zuozhu Liu Kwan Hui Lim Lidong Bing

摘要

BERT在句对任务（如聚类或语义搜索）中效率较低，因为其需要对组合数量庞大的句对进行逐一评估，这一过程极为耗时。为应对这一挑战，Sentence BERT（SBERT）通过学习单个句子的语义有意义表示，使得句子间相似性比较能够高效实现。然而，SBERT的训练依赖于高质量标注的句对语料库，这限制了其在标注数据极度稀缺任务中的应用。本文提出了一种轻量级的BERT扩展方法，并设计了一种基于互信息最大化策略的新型自监督学习目标，从而在无监督条件下生成具有语义意义的句子嵌入表示。与SBERT不同，本方法不依赖于标注数据的可用性，因此可广泛应用于不同领域特定的语料库。实验结果表明，所提出的方法在常见的语义文本相似性（STS）任务及下游监督任务中，显著优于其他无监督句子嵌入基线方法。此外，在缺乏领域内标注数据的场景下，该方法的表现甚至超越SBERT，并在多项任务上达到与监督学习方法相媲美的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

多模态表征

自然语言处理

Yan Zhang Ruidan He Zuozhu Liu Kwan Hui Lim Lidong Bing

摘要

BERT在句对任务（如聚类或语义搜索）中效率较低，因为其需要对组合数量庞大的句对进行逐一评估，这一过程极为耗时。为应对这一挑战，Sentence BERT（SBERT）通过学习单个句子的语义有意义表示，使得句子间相似性比较能够高效实现。然而，SBERT的训练依赖于高质量标注的句对语料库，这限制了其在标注数据极度稀缺任务中的应用。本文提出了一种轻量级的BERT扩展方法，并设计了一种基于互信息最大化策略的新型自监督学习目标，从而在无监督条件下生成具有语义意义的句子嵌入表示。与SBERT不同，本方法不依赖于标注数据的可用性，因此可广泛应用于不同领域特定的语料库。实验结果表明，所提出的方法在常见的语义文本相似性（STS）任务及下游监督任务中，显著优于其他无监督句子嵌入基线方法。此外，在缺乏领域内标注数据的场景下，该方法的表现甚至超越SBERT，并在多项任务上达到与监督学习方法相媲美的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供