4 个月前

嵌入空间中的主题建模

嵌入空间中的主题建模

摘要

主题建模通过分析文档来学习有意义的词汇模式。然而,现有的主题模型在处理大型且长尾分布的词汇表时,无法学习到可解释的主题。为此,我们开发了嵌入式主题模型(Embedded Topic Model, ETM),这是一种结合了传统主题模型与词嵌入的文档生成模型。具体而言,该模型使用一个分类分布来表示每个词,其自然参数是词嵌入与其分配主题的嵌入之间的内积。为了拟合ETM,我们开发了一种高效的摊销变分推断算法。即使在包含罕见词和停用词的大规模词汇表中,ETM也能发现可解释的主题。在主题质量和预测性能方面,ETM均优于现有的文档模型,如潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)。

代码仓库

adjidieng/ETM
官方
pytorch
GitHub 中提及
cran/topicmodels.etm
pytorch
GitHub 中提及
hjzzang/ETM
pytorch
GitHub 中提及
adjidieng/DETM
pytorch
GitHub 中提及
bnosac/ETM
pytorch
GitHub 中提及
yukisea/ETM
pytorch
GitHub 中提及
migrationsKB/MGKB
pytorch
GitHub 中提及
zll17/Neural_Topic_Models
pytorch
GitHub 中提及
fumiyo0607/ETM
pytorch
GitHub 中提及
bahareharandizade/keyetm
pytorch
GitHub 中提及

基准测试

基准方法指标
topic-models-on-20newsgroupsETM
C_v: 0.51
topic-models-on-ag-newsETM
C_v: 0.41
NPMI: 0.02

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
嵌入空间中的主题建模 | 论文 | HyperAI超神经