3 个月前

基于最优传输的神经主题模型

基于最优传输的神经主题模型

摘要

近年来,受变分自编码器(Variational Autoencoders, VAEs)启发的神经主题模型(Neural Topic Models, NTMs)因其在文本分析任务中展现出的优异性能,受到了越来越多研究者的关注。然而,现有NTMs往往难以同时实现高质量的文档表示以及主题的一致性与多样性。此外,它们在处理短文本时性能通常会显著下降。同时,现有方法对重参数化(reparameterization)的依赖也会影响训练质量与模型灵活性。为解决上述问题,本文提出了一种基于最优传输理论(Optimal Transport, OT)的新一代神经主题模型。具体而言,我们通过直接最小化文档与其词分布之间的最优传输距离,来学习文档的主题分布。尤为重要的是,OT距离中的代价矩阵刻画了主题与词之间的权重关系,该矩阵由嵌入空间中主题与词之间的距离构建而成。所提出的模型可采用可微分的损失函数实现高效训练。大量实验结果表明,与当前最先进的NTMs相比,本文框架在发现更具一致性与多样性的主题,以及为常规文本和短文本生成更优文档表示方面均显著优于现有方法。

基准测试

基准方法指标
topic-models-on-20newsgroupsNSTM
C_v: 0.38
topic-models-on-ag-newsNSTM
C_v: 0.37
NPMI: -0.04

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供