
摘要
许多机器学习算法要求输入以固定长度的特征向量形式表示。在处理文本时,最常见的固定长度特征之一是词袋模型。尽管词袋模型广受欢迎,但它有两个主要缺点:一是丢失了词语的顺序,二是忽略了词语的语义。例如,“powerful”(强大的)、“strong”(强壮的)和“Paris”(巴黎)之间的距离相等。本文提出了一种无监督算法——段落向量(Paragraph Vector),该算法从可变长度的文本片段(如句子、段落和文档)中学习固定长度的特征表示。我们的算法通过训练一个密集向量来预测文档中的单词,从而表示每个文档。这种构建方式使得我们的算法有可能克服词袋模型的弱点。实证结果表明,段落向量在文本表示方面优于词袋模型和其他技术。最终,我们在多个文本分类和情感分析任务上取得了新的最佳结果。
代码仓库
bombdiggity/paper-bag
tf
GitHub 中提及
jimmy6727/Informd
tf
GitHub 中提及
julian-risch/ICADL2018
tf
GitHub 中提及
hithisisdhara/doc2vec
pytorch
GitHub 中提及
inejc/paragraph-vectors
pytorch
GitHub 中提及
kr900910/supreme_court_opinion
tf
GitHub 中提及
tsandefer/capstone_2
tf
GitHub 中提及
DCYN/Ramdomized-Clinical-Trail-Classification
tf
GitHub 中提及
vanboefer/nn_doc2vec_exercise
GitHub 中提及
tsandefer/dsi_capstone_2
tf
GitHub 中提及
eske/multivec
GitHub 中提及
kitnhl/partisan-tweets-classification
GitHub 中提及
Nalydy/doc2vec
GitHub 中提及
ibrahimsharaf/doc2vec
GitHub 中提及
g-k-l/dsi-arxiv-recommender
GitHub 中提及
slme1109/Lyrics_Generator_Using_LSTM
tf
GitHub 中提及
dhyeon/ingredient-vectors
pytorch
GitHub 中提及
kramamur/sentiment-analysis
GitHub 中提及
slme1109/lyrics-generator
tf
GitHub 中提及
wiflore/IBM_Articles_Recomender
GitHub 中提及
rvstraalen/doc2vec-workshop
GitHub 中提及
YinpeiDai/NAUM
tf
GitHub 中提及
kinimod23/NMT_Project
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-qasent | Paragraph vector | MAP: 0.5213 MRR: 0.6023 |
| question-answering-on-qasent | Paragraph vector (lexical overlap + dist output) | MAP: 0.6762 MRR: 0.7514 |
| question-answering-on-wikiqa | Paragraph vector | MAP: 0.5110 MRR: 0.5160 |
| question-answering-on-wikiqa | Paragraph vector (lexical overlap + dist output) | MAP: 0.5976 MRR: 0.6058 |