
摘要
文本分类是一个具有挑战性的问题,其目标是识别文本的类别。在训练过程中,词嵌入占据了大量参数。在计算资源有限的情况下,这间接限制了后续网络设计的能力。为了减少参数数量,最近提出了组合编码机制。基于此,本文进一步探讨了组合编码,并提出了一种组合加权编码方法。我们应用胶囊网络来建模词嵌入之间的关系,并提出了一种基于k-means聚类理论的新路由算法,以充分挖掘词嵌入之间的关系。结合我们的组合加权编码方法和路由算法,我们设计了一个用于文本分类的神经网络。在八个具有挑战性的文本分类数据集上进行的实验表明,所提出的方法在显著减少参数数量的情况下,达到了与现有最先进方法相当的准确性。
代码仓库
leftthomas/CCCapsNet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| sentiment-analysis-on-amazon-review-full | CCCapsNet | Accuracy: 60.95 | 
| sentiment-analysis-on-amazon-review-polarity | CCCapsNet | Accuracy: 94.96 | 
| sentiment-analysis-on-yelp-binary | CCCapsNet | Error: 3.52 | 
| sentiment-analysis-on-yelp-fine-grained | CCCapsNet | Error: 34.15 | 
| text-classification-on-ag-news | CCCapsNet | Error: 7.61 | 
| text-classification-on-dbpedia | CCCapsNet | Error: 1.28 | 
| text-classification-on-sogou-news | CCCapsNet | Accuracy: 97.25 | 
| text-classification-on-yahoo-answers | CCCapsNet | Accuracy: 73.85 |