6 个月前

摘要

在IMDB电影评论数据集上，当前最先进的测试准确率（97.42%）由\citet{thongtan-phienthrakul-2019-sentiment}报告，该结果是通过在其论文中提出的基于余弦相似度的文档向量（DV-ngrams-cosine）与朴素贝叶斯权重缩放的N-gram词袋（BON）向量相结合，并训练逻辑回归分类器所获得。尽管基于Transformer的大规模预训练模型在众多数据集和任务上均取得了最先进的性能，但这一相对简单的模型——仅在IMDB数据集上进行预训练——至今仍未被超越。本文揭示了该模型在评估过程中存在一个错误，这一问题是在我们试图分析其在IMDB数据集上表现出色的原因时发现的。我们进一步证明，此前报告的97.42%的测试准确率无效，应更正为93.68%。此外，我们还分析了该模型在不同规模训练数据（即IMDB数据集的不同子集）下的性能表现，并将其与基于Transformer的RoBERTa模型进行了对比。实验结果表明，尽管在大规模训练集上RoBERTa具有明显优势，但在标注训练集极小（仅10或20个文档）的情况下，DV-ngrams-cosine模型的表现反而优于RoBERTa。最后，我们提出了一种基于朴素贝叶斯权重的子采样策略，用于DV-ngrams-cosine模型的训练过程，该策略显著提升了训练速度并优化了模型质量。

源 PDF