3 个月前

基于双向对抗训练的神经主题建模

基于双向对抗训练的神经主题建模

摘要

近年来,神经主题模型在自动文本主题提取任务中受到广泛关注,因其无需像传统主题模型(如潜在狄利克雷分配,LDA)那样进行复杂的数学推导即可实现模型推断。然而,现有方法通常对潜在主题空间假设不合理的先验分布(如高斯分布或逻辑正态分布),或无法为给定文档推断出相应的主题分布。为解决上述局限性,本文提出一种新型神经主题建模方法——双向对抗主题模型(Bidirectional Adversarial Topic, BAT),该模型首次将双向对抗训练机制应用于神经主题建模。所提出的BAT模型在文档-主题分布与文档-词分布之间建立了双向映射关系,利用生成器捕捉文本中的语义模式,同时通过编码器实现主题推断。为进一步融合词项之间的相关性信息,本文进一步扩展出基于高斯先验的双向对抗主题模型(Gaussian-BAT)。为验证BAT与Gaussian-BAT的有效性,我们在三个标准语料库上进行了实验。实验结果表明,BAT与Gaussian-BAT能够生成更具语义连贯性的主题,显著优于多个具有竞争力的基线模型。此外,在基于提取主题进行文本聚类的任务中,本文提出的模型同样全面超越所有基线方法,其中Gaussian-BAT表现尤为突出,准确率提升了接近6%。

代码仓库

zll17/Neural_Topic_Models
pytorch
GitHub 中提及

基准测试

基准方法指标
text-clustering-on-20-newsgroupsG-BAT
Accuracy: 41.25
text-clustering-on-20-newsgroupsBAT
Accuracy: 35.66

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于双向对抗训练的神经主题建模 | 论文 | HyperAI超神经