
摘要
诸如领域适应、迁移学习和特征学习等动机激发了对罕见词或未见词、n-gram、同义词集(synsets)及其他文本特征进行嵌入表示的兴趣。本文介绍了一种按需嵌入(a la carte embedding)方法,这是一种简单且通用的替代方案,用于构建此类表示,其基础是近期关于类似GloVe嵌入的理论结果。我们的方法主要依赖于一种线性变换,该变换可以通过预训练的词向量和线性回归高效地学习。当未来遇到新的文本特征或罕见词时,即使只有一个使用示例,这种变换也可以即时应用。我们引入了一个新数据集,展示了按需方法在从上下文中学习高质量嵌入所需示例数量较少的情况下的优势,并在一项nonce任务以及一些无监督文档分类任务中取得了最先进水平的结果。
代码仓库
NLPrinceton/ALaCarte
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sentiment-analysis-on-cr | byte mLSTM7 | Accuracy: 90.6 |
| sentiment-analysis-on-mpqa | byte mLSTM7 | Accuracy: 88.8 |
| sentiment-analysis-on-mr | byte mLSTM7 | Accuracy: 86.8 |
| sentiment-analysis-on-sst-2-binary | byte mLSTM7 | Accuracy: 91.7 |
| sentiment-analysis-on-sst-5-fine-grained | byte mLSTM7 | Accuracy: 54.6 |
| subjectivity-analysis-on-subj | byte mLSTM7 | Accuracy: 94.7 |
| text-classification-on-trec-6 | byte mLSTM7 | Error: 9.6 |