3 个月前

基于余弦相似度的文档向量再审视

基于余弦相似度的文档向量再审视

摘要

在IMDB电影评论数据集上,当前最先进的测试准确率(97.42%)由\citet{thongtan-phienthrakul-2019-sentiment}报告,该结果是通过在其论文中提出的基于余弦相似度的文档向量(DV-ngrams-cosine)与朴素贝叶斯权重缩放的N-gram词袋(BON)向量相结合,并训练逻辑回归分类器所获得。尽管基于Transformer的大规模预训练模型在众多数据集和任务上均取得了最先进的性能,但这一相对简单的模型——仅在IMDB数据集上进行预训练——至今仍未被超越。本文揭示了该模型在评估过程中存在一个错误,这一问题是在我们试图分析其在IMDB数据集上表现出色的原因时发现的。我们进一步证明,此前报告的97.42%的测试准确率无效,应更正为93.68%。此外,我们还分析了该模型在不同规模训练数据(即IMDB数据集的不同子集)下的性能表现,并将其与基于Transformer的RoBERTa模型进行了对比。实验结果表明,尽管在大规模训练集上RoBERTa具有明显优势,但在标注训练集极小(仅10或20个文档)的情况下,DV-ngrams-cosine模型的表现反而优于RoBERTa。最后,我们提出了一种基于朴素贝叶斯权重的子采样策略,用于DV-ngrams-cosine模型的训练过程,该策略显著提升了训练速度并优化了模型质量。

代码仓库

基准测试

基准方法指标
sentiment-analysis-on-imdbRoBERTa.base
Accuracy: 95.79
sentiment-analysis-on-imdbDV-ngrams-cosine + NB-weighted BON (re-evaluated)
Accuracy: 93.68
sentiment-analysis-on-imdbDV-ngrams-cosine + RoBERTa.base
Accuracy: 95.92
sentiment-analysis-on-imdbDV-ngrams-cosine with NB sub-sampling + RoBERTa.base
Accuracy: 95.94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于余弦相似度的文档向量再审视 | 论文 | HyperAI超神经