HyperAI

摘要

许多机器学习算法要求输入以固定长度的特征向量形式表示。在处理文本时，最常见的固定长度特征之一是词袋模型。尽管词袋模型广受欢迎，但它有两个主要缺点：一是丢失了词语的顺序，二是忽略了词语的语义。例如，“powerful”（强大的）、“strong”（强壮的）和“Paris”（巴黎）之间的距离相等。本文提出了一种无监督算法——段落向量（Paragraph Vector），该算法从可变长度的文本片段（如句子、段落和文档）中学习固定长度的特征表示。我们的算法通过训练一个密集向量来预测文档中的单词，从而表示每个文档。这种构建方式使得我们的算法有可能克服词袋模型的弱点。实证结果表明，段落向量在文本表示方面优于词袋模型和其他技术。最终，我们在多个文本分类和情感分析任务上取得了新的最佳结果。

摘要

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

用 AI 构建 AI

HyperAI Newsletters

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

用 AI 构建 AI

HyperAI Newsletters

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

句子和文档的分布式表示

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

句子和文档的分布式表示

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

句子和文档的分布式表示

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

用 AI 构建 AI

HyperAI Newsletters