4 个月前

用于高效文本分类的技巧集锦

用于高效文本分类的技巧集锦

摘要

本文探讨了一种简单且高效的文本分类基线方法。实验结果表明,我们提出的快速文本分类器fastText在准确性方面通常与深度学习分类器相当,而在训练和评估速度上则快几个数量级。使用标准多核CPU,我们可以在不到十分钟的时间内对超过十亿个单词进行fastText训练,并在不到一分钟的时间内将五十万句句子分类到312,000个类别中。

代码仓库

currentsapi/extractnet
GitHub 中提及
GitHubSprint/fasttext4j
GitHub 中提及
code2k13/nlppipe
GitHub 中提及
bung87/fastText
GitHub 中提及
amymariaparker2401/new
GitHub 中提及
M155K4R4/fastText
GitHub 中提及
2023-MindSpore-1/ms-code-200
mindspore
GitHub 中提及
currentslab/extractnet
GitHub 中提及
ericxsun/fastText
GitHub 中提及
donghyeonk/fastText1607
pytorch
GitHub 中提及
luckyPT/jvm-ml
tf
GitHub 中提及
vinhkhuc/JFastText
GitHub 中提及
2023-MindSpore-1/ms-code-197
mindspore
GitHub 中提及
currentsapi/fastlangid
GitHub 中提及
bzz/LangID
tf
GitHub 中提及
TsingZ0/PFL-Non-IID
pytorch
GitHub 中提及
Nim-NLP/fastText
GitHub 中提及
divisionai/fastText
GitHub 中提及
SarangShaikh201/fastText
GitHub 中提及
rmenegaux/fastDNA
GitHub 中提及
lmd1993/fastTextBoost
GitHub 中提及
kpu/fastertext
GitHub 中提及
explosion/floret
GitHub 中提及
mwydmuch/extremeText
tf
GitHub 中提及
graykode/nlp-tutorial
pytorch
GitHub 中提及
yangyucheng000/fasttext
mindspore
GitHub 中提及
indix/whatthelang
GitHub 中提及
csebuetnlp/xl-sum
jax
GitHub 中提及
bmcclannahan/NLP-Sentiment
pytorch
GitHub 中提及
2023-MindSpore-1/ms-code-198
mindspore
GitHub 中提及
trietnm2/sent2vec4j
GitHub 中提及
code2k13/nlphose
GitHub 中提及
jen1995/fastText
GitHub 中提及
facebookresearch/fastText
官方
GitHub 中提及
ZZhangyutong/fasttext
mindspore
GitHub 中提及
luhuiguo/jfasttext
GitHub 中提及
wyfish/fastText
GitHub 中提及
tshev/faster-FastText
GitHub 中提及
linkfluence/fastText4j
GitHub 中提及
hanfeng108/Language-Detection
pytorch
GitHub 中提及
nageshsinghc4/deepwrap
tf
GitHub 中提及
hufscapstone/Fast_text
GitHub 中提及

基准测试

基准方法指标
emotion-recognition-in-conversation-on-cpedFastText
Accuracy of Sentiment: 48.62
Macro-F1 of Sentiment: 30.33
sentiment-analysis-on-amazon-review-fullFastText
Accuracy: 60.2
sentiment-analysis-on-amazon-review-polarityFastText
Accuracy: 94.6
sentiment-analysis-on-sogou-newsfastText, h=10, bigram
Accuracy: 96.8
sentiment-analysis-on-yelp-binaryfastText, h=10, bigram
Error: 4.3
sentiment-analysis-on-yelp-fine-grainedFastText
Error: 36.1
text-classification-on-ag-newsfastText
Error: 7.5
text-classification-on-dbpediaFastText
Error: 1.4
text-classification-on-yahoo-answersFastText
Accuracy: 72.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于高效文本分类的技巧集锦 | 论文 | HyperAI超神经