3 个月前

vONTSS:基于vMF的半监督神经主题建模与最优传输

vONTSS:基于vMF的半监督神经主题建模与最优传输

摘要

近年来,受变分自编码器(Variational Autoencoders, VAEs)启发的神经主题模型(Neural Topic Models, NTMs)受到广泛关注;然而,由于难以有效融入人类先验知识,这类方法在实际应用中仍面临诸多限制。本文提出了一种半监督神经主题建模方法——vONTSS,该方法基于von Mises-Fisher(vMF)分布的变分自编码器,并引入最优传输(Optimal Transport)机制。在提供每主题少量关键词的半监督设定下,vONTSS能够生成具有潜力的主题,并同时优化主题与关键词之间的匹配质量以及主题分类性能。实验结果表明,vONTSS在分类准确率和主题多样性方面均优于现有的半监督主题建模方法。此外,vONTSS也支持无监督主题建模。定量与定性实验显示,在无监督设置下,vONTSS在多个评估维度上均显著优于近期的神经主题模型:其在基准数据集上能够发现高度凝聚且语义连贯的主题。同时,vONTSS的运行速度远超当前最先进的弱监督文本分类方法,而在分类性能上仍保持相当水平。本文进一步从理论上证明了最优传输损失函数与交叉熵损失函数在全局最优解处具有等价性。

基准测试

基准方法指标
topic-models-on-20newsgroupsvONTSS
C_v: 0.69
topic-models-on-ag-newsvONTSS
C_v: 0.49
NPMI: 0.054
topic-models-on-agnewsvONTSS
C_v: 0.49

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
vONTSS:基于vMF的半监督神经主题建模与最优传输 | 论文 | HyperAI超神经