3 个月前

ORCAS-I:使用弱监督标注意图的查询

ORCAS-I:使用弱监督标注意图的查询

摘要

用户意图分类是信息检索领域的一项重要任务。本文提出了一种改进的用户意图分类体系。以广泛采用的导航型、交易型和信息型查询的区分为基础,我们进一步识别出信息型查询的三个子类别:工具型(instrumental)、事实型(factual)和回避型(abstain)。该分类体系更加细致,标注者之间的一致性水平较高,可作为实现高效自动意图分类的可靠基础。新引入的类别有助于区分检索系统可采取不同响应策略的查询类型,例如在排序过程中对不同类型的结果进行优先级调整。我们采用基于Snorkel的弱监督方法,依据新的用户意图分类体系对ORCAS数据集进行标注,利用已知的启发式规则和关键词构建预测意图类别的规则体系。随后,我们使用多种机器学习模型开展了一系列实验,以弱监督阶段生成的标签作为训练数据。然而,实验结果表明,Snorkel所生成的结果并未被这些竞争性方法超越,反而达到了当前最先进的水平。基于规则的方法(如Snorkel)的优势在于其在实际系统中的高效部署能力——在真实应用场景中,系统需对每一条用户查询实时执行意图分类。本文发布的资源为ORCAS-I数据集:一个基于点击行为的Web查询数据集ORCAS的标注版本,包含1800万条连接关系,覆盖1000万个不同的查询。该数据集为后续研究提供了高质量的标注基础。

代码仓库

projectdossier/intents_labelling
官方
GitHub 中提及

基准测试

基准方法指标
intent-classification-on-orcas-iBERT (query + URL)
F1-score: 0.774
Precision: 0.789
Recall: 0.764

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ORCAS-I:使用弱监督标注意图的查询 | 论文 | HyperAI超神经