
摘要
主题建模通过分析文档来学习有意义的词汇模式。然而,现有的主题模型在处理大型且长尾分布的词汇表时,无法学习到可解释的主题。为此,我们开发了嵌入式主题模型(Embedded Topic Model, ETM),这是一种结合了传统主题模型与词嵌入的文档生成模型。具体而言,该模型使用一个分类分布来表示每个词,其自然参数是词嵌入与其分配主题的嵌入之间的内积。为了拟合ETM,我们开发了一种高效的摊销变分推断算法。即使在包含罕见词和停用词的大规模词汇表中,ETM也能发现可解释的主题。在主题质量和预测性能方面,ETM均优于现有的文档模型,如潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)。
代码仓库
adjidieng/ETM
官方
pytorch
GitHub 中提及
cran/topicmodels.etm
pytorch
GitHub 中提及
lffloyd/embedded-topic-model
GitHub 中提及
hjzzang/ETM
pytorch
GitHub 中提及
adjidieng/DETM
pytorch
GitHub 中提及
bnosac/ETM
pytorch
GitHub 中提及
yukisea/ETM
pytorch
GitHub 中提及
migrationsKB/MGKB
pytorch
GitHub 中提及
zll17/Neural_Topic_Models
pytorch
GitHub 中提及
fumiyo0607/ETM
pytorch
GitHub 中提及
bahareharandizade/keyetm
pytorch
GitHub 中提及
lfmatosm/embedded-topic-model
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| topic-models-on-20newsgroups | ETM | C_v: 0.51 |
| topic-models-on-ag-news | ETM | C_v: 0.41 NPMI: 0.02 |