
摘要
本文提出了一种基于将词嵌入向量聚合成文档嵌入的新颖文本表示方法。我们的方法受到用于图像表示的局部聚合描述符向量(Vector of Locally-Aggregated Descriptors)的启发,具体步骤如下。首先,从文档集合中收集的词嵌入通过k均值聚类来学习一个包含语义相关词嵌入的码本。然后,每个词嵌入与其最近的聚类中心(码字)关联。文档的局部聚合词嵌入向量(Vector of Locally-Aggregated Word Embeddings, VLAWE)表示通过累积每个码字向量与其对应的文档中的词向量之间的差异来计算。我们将以无监督方式学习到的VLAWE表示应用于分类器,并展示了其在多种文本分类任务中的有效性。我们与一系列最新的先进方法进行了比较,证明了我们方法的有效性。此外,我们在电影评论数据集上取得了显著改进,报告准确率为93.3%,比现有最先进方法绝对提高了10%。我们的代码可在https://github.com/raduionescu/vlawe-boswe/ 获取。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-classification-on-reuters-21578 | VLAWE | F1: 89.3 |
| multi-label-text-classification-on-reuters-1 | VLAWE | Micro-F1: 89.3 |
| sentiment-analysis-on-mr | VLAWE | Accuracy: 93.3 |
| subjectivity-analysis-on-subj | VLAWE | Accuracy: 95.0 |
| text-classification-on-mr | VLAWE | Accuracy: 93.3 |
| text-classification-on-trec-6 | VLAWE | Error: 5.8 |