
摘要
本文对字符级卷积网络(ConvNets)在文本分类中的应用进行了实证研究。我们构建了多个大规模数据集,以展示字符级卷积网络能够达到最先进或具有竞争力的结果。文中还提供了与传统模型(如词袋模型、n-gram 模型及其 TFIDF 变体)以及深度学习模型(如基于词的卷积网络和循环神经网络)的对比分析。
代码仓库
tuvuumass/SCoPE
tf
GitHub 中提及
threelittlemonkeys/cnn-text-classification-pytorch
pytorch
GitHub 中提及
ArdalanM/nlp-benchmarks
pytorch
GitHub 中提及
zhangxiangxiao/Crepe
pytorch
GitHub 中提及
anutkk/RambaNet
tf
GitHub 中提及
paddorch/CharCNN.paddle
paddle
GitHub 中提及
alrope123/prompt-waywardness
pytorch
GitHub 中提及
uds-lsv/bert-lnl
pytorch
GitHub 中提及
sucheta19/Text-Classification-Using-CNN
tf
GitHub 中提及
frederick0329/text-classification-benchmark
pytorch
GitHub 中提及
HeyLynne/char_cnn
tf
GitHub 中提及
mhjabreel/CharCnn_Keras
tf
GitHub 中提及
threelittlemonkeys/text-cnn-pytorch
pytorch
GitHub 中提及
cmasch/cnn-text-classification
tf
GitHub 中提及
gaussic/text-classification-cnn-rnn
tf
GitHub 中提及
ahmedbesbes/character-based-cnn
pytorch
GitHub 中提及
mhjabreel/CharCNN
tf
GitHub 中提及
hc495/staicc
pytorch
GitHub 中提及
ZeweiChu/NatCat
pytorch
GitHub 中提及
sunginmkone/AWS_Training_NLP
pytorch
GitHub 中提及
srviest/char-cnn-text-classification-pytorch
pytorch
GitHub 中提及
lonePatient/char-cnn-text-classification
pytorch
GitHub 中提及
gmichalo/question_identification_on_medical_logs
pytorch
GitHub 中提及
protonx-tf-03-projects/CharCNN
tf
GitHub 中提及
Fadeich/HotFlip-CNN-pytorch
pytorch
GitHub 中提及
paper-cat/Sentence-Classifications
tf
GitHub 中提及
dongjun-Lee/text-classification-models-tf
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sentiment-analysis-on-yelp-binary | Char-level CNN | Error: 4.88 |
| sentiment-analysis-on-yelp-fine-grained | Char-level CNN | Error: 37.95 |
| text-classification-on-ag-news | Char-level CNN | Error: 9.51 |
| text-classification-on-dbpedia | Char-level CNN | Error: 1.55 |