
摘要
理解搜索查询是一个难题,因为它涉及处理用户普遍发出的“词语沙拉”文本。然而,如果一个查询类似于一个结构良好的问题,自然语言处理流水线能够进行更准确的解释,从而减少下游错误的累积。因此,识别查询是否为结构良好的问题可以增强对查询的理解。本文介绍了一项新的任务,即识别结构良好的自然语言问题。我们构建并发布了包含25,100个公开可用问题的数据集,这些问题被分类为结构良好和非结构良好两类,并在测试集上报告了70.7%的准确率。此外,我们还展示了该分类器可用于改进用于生成阅读理解问题的神经序列到序列模型的性能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| query-wellformedness-on-query-wellformedness | word-1, 2 POS-1, 2, 3 | Accuracy: 70.7 |