HyperAIHyperAI

Command Palette

Search for a command to run...

通过破坏实现文档的有效向量表示

Minmin Chen

摘要

我们提出了一种高效的文档表示学习框架——通过破坏生成的文档向量(Doc2VecC)。Doc2VecC 将每个文档表示为词嵌入的简单平均值。该方法确保在学习过程中生成的表示能够捕捉文档的语义含义。Doc2VecC 包含一个破坏模型,该模型引入了数据依赖的正则化,倾向于保留信息丰富或罕见的词语,同时迫使常见且不具备区分性的词语嵌入接近零。与 Word2Vec 相比,Doc2VecC 生成的词嵌入显著更好。我们将 Doc2VecC 与几种最先进的文档表示学习算法进行了比较。Doc2VecC 引入的简单模型架构在生成高质量文档表示方面达到了或超过了现有最先进水平,适用于情感分析、文档分类以及语义相关性任务。此外,该模型能够在单台机器上以每小时数十亿词的速度进行训练。同时,该模型在测试时生成未见过的文档表示也非常高效。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过破坏实现文档的有效向量表示 | 论文 | HyperAI超神经