
摘要
Tsetlin Machine(TM)是一种基于命题逻辑的可解释模式识别算法,在自然语言处理(NLP)的多项任务中表现出具有竞争力的性能,包括情感分析、文本分类以及词义消歧。为实现人类级别的可解释性,传统TM采用布尔型输入特征,例如词袋模型(Bag-of-Words, BOW)。然而,BOW表示方式难以利用预训练的语义信息,如word2vec和GloVe等词向量表示,这一局限性导致TM在NLP任务中的性能相较于深度神经网络(DNN)模型受到显著制约。为缩小这一性能差距,本文提出一种全新的方法,将预训练词向量有效融入TM框架。该方法通过从预训练词向量中提取语义相关词汇作为TM的输入特征,显著提升了TM的性能与可解释性。实验结果表明,所提出方法的准确率显著优于基于BOW的旧有TM模型,已达到基于DNN模型的水平。
代码仓库
cair/PyTsetlinMachineCUDA
GitHub 中提及
cair/pyTsetlinMachineParallel
GitHub 中提及
cair/TsetlinMachine
GitHub 中提及
cair/pyTsetlinMachine
GitHub 中提及
ckinateder/pytsetlinmachineparallel
GitHub 中提及
cair/pyTsetlinMachineMT
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sentiment-analysis-on-mr | TM-Glove | Accuracy: 77.51 |
| text-classification-on-r52 | TM-Glove | Accuracy: 89.14 |
| text-classification-on-r8 | TM-Glove | Accuracy: 97.50 |
| text-classification-on-trec-6 | TM-Glove | Error: 9.96 |