4 个月前

句子和文档的分布式表示

句子和文档的分布式表示

摘要

许多机器学习算法要求输入以固定长度的特征向量形式表示。在处理文本时,最常见的固定长度特征之一是词袋模型。尽管词袋模型广受欢迎,但它有两个主要缺点:一是丢失了词语的顺序,二是忽略了词语的语义。例如,“powerful”(强大的)、“strong”(强壮的)和“Paris”(巴黎)之间的距离相等。本文提出了一种无监督算法——段落向量(Paragraph Vector),该算法从可变长度的文本片段(如句子、段落和文档)中学习固定长度的特征表示。我们的算法通过训练一个密集向量来预测文档中的单词,从而表示每个文档。这种构建方式使得我们的算法有可能克服词袋模型的弱点。实证结果表明,段落向量在文本表示方面优于词袋模型和其他技术。最终,我们在多个文本分类和情感分析任务上取得了新的最佳结果。

基准测试

基准方法指标
question-answering-on-qasentParagraph vector
MAP: 0.5213
MRR: 0.6023
question-answering-on-qasentParagraph vector (lexical overlap + dist output)
MAP: 0.6762
MRR: 0.7514
question-answering-on-wikiqaParagraph vector
MAP: 0.5110
MRR: 0.5160
question-answering-on-wikiqaParagraph vector (lexical overlap + dist output)
MAP: 0.5976
MRR: 0.6058

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
句子和文档的分布式表示 | 论文 | HyperAI超神经