
摘要
从大规模未标注语料库中学习的能力使得神经语言模型在自然语言理解方面取得了突破性的进展。然而,现有的自监督技术主要在词形层面进行操作,这仅作为底层语义内容的替代。本文提出了一种方法,直接在词义层面应用弱监督。我们提出的模型名为SenseBERT,该模型不仅预训练用于预测被遮掩的词语,还预测这些词语的WordNet超义项(supersenses)。因此,我们获得了一个无需人工标注的词汇-语义层面的语言模型。实验结果表明,SenseBERT显著提升了词汇理解能力,在SemEval词义消歧任务上的表现尤为突出,并且在词境任务上达到了当前最佳水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-inference-on-qnli | SenseBERT-base 110M | Accuracy: 90.6% |
| natural-language-inference-on-rte | SenseBERT-base 110M | Accuracy: 67.5% |
| word-sense-disambiguation-on-words-in-context | SenseBERT-large 340M | Accuracy: 72.1 |
| word-sense-disambiguation-on-words-in-context | SenseBERT-base 110M | Accuracy: 70.3 |