4 个月前

学习文档嵌入及其不确定性

学习文档嵌入及其不确定性

摘要

大多数文本建模技术仅生成文档嵌入的点估计值,而未能捕捉这些估计值的不确定性。这些不确定性可以反映嵌入向量在多大程度上代表了文档。本文提出了一种贝叶斯子空间多项式模型(Bayesian SMM),这是一种生成性的对数线性模型,能够学习以高斯分布的形式表示文档,从而在其协方差中编码不确定性。此外,在提出的贝叶斯SMM中,我们解决了混合逻辑模型在变分推断过程中常见的不可解问题。我们还提出了一种用于主题识别的生成性高斯线性分类器,该分类器利用了文档嵌入中的不确定性。通过使用困惑度指标进行内在评估,结果表明,与最先进的神经变分文档模型相比,所提出的贝叶斯SMM在Fisher语音和20Newsgroups文本语料库上的数据拟合效果更好。我们的主题识别实验表明,所提出的系统在未见过的测试数据上具有较强的抗过拟合能力。主题识别结果显示,所提出的模型优于最先进的无监督主题模型,并且其性能与最先进的全监督判别模型相当。

代码仓库

skesiraju/BaySMM
pytorch
GitHub 中提及
BUTSpeechFIT/BaySMM
pytorch
GitHub 中提及

基准测试

基准方法指标
topic-models-on-20-newsgroupsBayesian SMM
Test perplexity: 515

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习文档嵌入及其不确定性 | 论文 | HyperAI超神经