4 个月前

通过破坏实现文档的有效向量表示

通过破坏实现文档的有效向量表示

摘要

我们提出了一种高效的文档表示学习框架——通过破坏生成的文档向量(Doc2VecC)。Doc2VecC 将每个文档表示为词嵌入的简单平均值。该方法确保在学习过程中生成的表示能够捕捉文档的语义含义。Doc2VecC 包含一个破坏模型,该模型引入了数据依赖的正则化,倾向于保留信息丰富或罕见的词语,同时迫使常见且不具备区分性的词语嵌入接近零。与 Word2Vec 相比,Doc2VecC 生成的词嵌入显著更好。我们将 Doc2VecC 与几种最先进的文档表示学习算法进行了比较。Doc2VecC 引入的简单模型架构在生成高质量文档表示方面达到了或超过了现有最先进水平,适用于情感分析、文档分类以及语义相关性任务。此外,该模型能够在单台机器上以每小时数十亿词的速度进行训练。同时,该模型在测试时生成未见过的文档表示也非常高效。

代码仓库

基准测试

基准方法指标
semantic-similarity-on-sickDoc2VecC
MSE: 0.3053
Pearson Correlation: 0.8381
Spearman Correlation: 0.7621
sentiment-analysis-on-imdbDoc2VecC
Accuracy: 88.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过破坏实现文档的有效向量表示 | 论文 | HyperAI超神经