
摘要
本文探讨了一种简单且高效的文本分类基线方法。实验结果表明,我们提出的快速文本分类器fastText在准确性方面通常与深度学习分类器相当,而在训练和评估速度上则快几个数量级。使用标准多核CPU,我们可以在不到十分钟的时间内对超过十亿个单词进行fastText训练,并在不到一分钟的时间内将五十万句句子分类到312,000个类别中。
代码仓库
FengJiaChunFromSYSU/fastText
GitHub 中提及
currentsapi/extractnet
GitHub 中提及
TEAMLAB-Lecture/deep_nlp_101
tf
GitHub 中提及
GitHubSprint/fasttext4j
GitHub 中提及
code2k13/nlppipe
GitHub 中提及
bung87/fastText
GitHub 中提及
amymariaparker2401/new
GitHub 中提及
brightmart/text_classification
tf
GitHub 中提及
M155K4R4/fastText
GitHub 中提及
2023-MindSpore-1/ms-code-200
mindspore
GitHub 中提及
currentslab/extractnet
GitHub 中提及
pommedeterresautee/fastrtext
GitHub 中提及
ericxsun/fastText
GitHub 中提及
RaRe-Technologies/gensim-data
GitHub 中提及
donghyeonk/fastText1607
pytorch
GitHub 中提及
mohammadreza-Banaei73/INLP_neural_practical_session
pytorch
GitHub 中提及
luckyPT/jvm-ml
tf
GitHub 中提及
vinhkhuc/JFastText
GitHub 中提及
2023-MindSpore-1/ms-code-197
mindspore
GitHub 中提及
xyfJASON/Comment-Analysis
GitHub 中提及
bentrevett/pytorch-sentiment-analysis
pytorch
GitHub 中提及
currentsapi/fastlangid
GitHub 中提及
Omerktn/fastText-iterative
GitHub 中提及
bzz/LangID
tf
GitHub 中提及
TsingZ0/PFL-Non-IID
pytorch
GitHub 中提及
Nim-NLP/fastText
GitHub 中提及
Kinetikm/fastTextRelearning
GitHub 中提及
divisionai/fastText
GitHub 中提及
SarangShaikh201/fastText
GitHub 中提及
rmenegaux/fastDNA
GitHub 中提及
lmd1993/fastTextBoost
GitHub 中提及
dmlc/gluon-nlp
mxnet
kpu/fastertext
GitHub 中提及
explosion/floret
GitHub 中提及
xuzhezhaozhao/fastText_reading
GitHub 中提及
zafercavdar/fasttext-langdetect
GitHub 中提及
mwydmuch/extremeText
tf
GitHub 中提及
graykode/nlp-tutorial
pytorch
GitHub 中提及
yangyucheng000/fasttext
mindspore
GitHub 中提及
indix/whatthelang
GitHub 中提及
csebuetnlp/xl-sum
jax
GitHub 中提及
bmcclannahan/NLP-Sentiment
pytorch
GitHub 中提及
2023-MindSpore-1/ms-code-198
mindspore
GitHub 中提及
trietnm2/sent2vec4j
GitHub 中提及
code2k13/nlphose
GitHub 中提及
jen1995/fastText
GitHub 中提及
facebookresearch/fastText
官方
GitHub 中提及
ZZhangyutong/fasttext
mindspore
GitHub 中提及
luhuiguo/jfasttext
GitHub 中提及
wyfish/fastText
GitHub 中提及
DW-yejing/fasttext4j-jdk6
GitHub 中提及
tshev/faster-FastText
GitHub 中提及
linkfluence/fastText4j
GitHub 中提及
Kinetikm/fasttextRelearnExperiment
GitHub 中提及
MhYao2014/HyperbolicEmbedding
GitHub 中提及
gmichalo/question_identification_on_medical_logs
pytorch
GitHub 中提及
ppke-nlpg/fastText_factored-cbow
GitHub 中提及
hanfeng108/Language-Detection
pytorch
GitHub 中提及
shawnyxiao/textclassification-keras
tf
GitHub 中提及
nageshsinghc4/deepwrap
tf
GitHub 中提及
ShreyaKhare/imdb_fasttext
GitHub 中提及
romik9999/fasttext-1925f09ed3
GitHub 中提及
hufscapstone/Fast_text
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| emotion-recognition-in-conversation-on-cped | FastText | Accuracy of Sentiment: 48.62 Macro-F1 of Sentiment: 30.33 |
| sentiment-analysis-on-amazon-review-full | FastText | Accuracy: 60.2 |
| sentiment-analysis-on-amazon-review-polarity | FastText | Accuracy: 94.6 |
| sentiment-analysis-on-sogou-news | fastText, h=10, bigram | Accuracy: 96.8 |
| sentiment-analysis-on-yelp-binary | fastText, h=10, bigram | Error: 4.3 |
| sentiment-analysis-on-yelp-fine-grained | FastText | Error: 36.1 |
| text-classification-on-ag-news | fastText | Error: 7.5 |
| text-classification-on-dbpedia | FastText | Error: 1.4 |
| text-classification-on-yahoo-answers | FastText | Accuracy: 72.3 |