3 个月前

重新思考用于文档分类的复杂神经网络架构

重新思考用于文档分类的复杂神经网络架构

摘要

近年来,许多自然语言处理(NLP)任务的神经网络模型日益复杂,导致训练与部署难度不断上升。近期多项研究质疑了此类复杂架构的必要性,发现经过精心设计的简单模型同样具有出色的表现。本文表明,文档分类任务亦遵循这一规律:在对多个近期神经网络模型进行的大规模可复现性研究中,我们发现,仅采用带有适当正则化技术的简单双向LSTM(BiLSTM)架构,即可在四个标准基准数据集上达到与当前最先进方法相当甚至更优的准确率与F1值。令人意外的是,我们的简单模型在未使用注意力机制(attention mechanisms)的情况下,仍能取得优异性能。尽管所采用的正则化技术源自语言建模领域,且本身并非全新,但据我们所知,这是首次将这些技术应用于文档分类任务。本研究提供了一个开源平台,为未来在文档分类领域的研究奠定了坚实基础。

基准测试

基准方法指标
document-classification-on-imdb-mLSTM-reg (single model)
Accuracy: 52.8
document-classification-on-reuters-21578LSTM-reg (single model)
F1: 87.0
text-classification-on-yelp-5LSTM-reg (single moedl)
Accuracy: 68.7%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考用于文档分类的复杂神经网络架构 | 论文 | HyperAI超神经