
摘要
网络搜索引擎需要在数百毫秒内返回高度相关的结果,而预训练的语言转换模型(如BERT)由于计算开销较大,难以在此类场景中直接应用。为此,我们提出了一种基于BERT的孪生网络架构的实时文档排序方法。该模型已成功部署于某商业搜索引擎中,显著提升了生产环境下的性能,改进幅度超过3%。为进一步推动相关研究与评估,我们发布了DaReCzech数据集——一个包含160万条捷克语用户查询-文档配对的独家数据集,每对数据均经过人工标注的相关性等级。同时,我们还发布了Small-E-Czech,一个在大规模捷克语语料上预训练的Electra-small语言模型。我们相信,这些数据资源将有力支持搜索相关性研究以及多语言方向的研究社区。
代码仓库
seznam/dareczech
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-ranking-on-dareczech | Siamese Small-E-Czech (Electra-small) | P@10: 45.26 |
| document-ranking-on-dareczech | Query-doc RobeCzech (Roberta-base) | P@10: 46.73 |
| document-ranking-on-dareczech | Query-doc Small-E-Czech (Electra-small) | P@10: 46.30 |