摘要
神经序列模型在句子级情感分类任务中取得了显著成功。然而,部分模型结构异常复杂,或依赖于代价高昂的特征;另一些模型虽认识到现有语言资源的价值,但未能充分加以利用。本文提出一种新颖且通用的方法,用于融合词典信息,包括情感词典(正/负情感)、否定词和程度副词。词语被标注为细粒度与粗粒度两种标签。所提出的方法首先将细粒度标签编码为情感嵌入,并将其与词嵌入拼接;其次,利用粗粒度标签增强注意力机制,使模型对情感相关词语赋予更高的权重。实验结果表明,该方法能够提升神经序列模型在SST-5和MR数据集上的分类准确率。具体而言,增强后的Bi-LSTM模型性能甚至可与使用昂贵的短语级标注的Tree-LSTM模型相媲美。进一步分析显示,在大多数情况下,词典资源能够提供正确的标注信息;此外,所提方法具备有效缓解不可避免的错误标注所带来的负面影响的能力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sentiment-analysis-on-sst-5-fine-grained | Bi-LSTM+2+5 | Accuracy: 50.4 |