3 个月前

基于孪生BERT的模型在新捷克语数据集上的网页搜索相关性排序评估

Matěj Kocián Jakub Náplava Daniel Štancl Vladimír Kadlec

摘要

网络搜索引擎需要在数百毫秒内返回高度相关的结果，而预训练的语言转换模型（如BERT）由于计算开销较大，难以在此类场景中直接应用。为此，我们提出了一种基于BERT的孪生网络架构的实时文档排序方法。该模型已成功部署于某商业搜索引擎中，显著提升了生产环境下的性能，改进幅度超过3%。为进一步推动相关研究与评估，我们发布了DaReCzech数据集——一个包含160万条捷克语用户查询-文档配对的独家数据集，每对数据均经过人工标注的相关性等级。同时，我们还发布了Small-E-Czech，一个在大规模捷克语语料上预训练的Electra-small语言模型。我们相信，这些数据资源将有力支持搜索相关性研究以及多语言方向的研究社区。

代码仓库

seznam/dareczech

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
document-ranking-on-dareczech	Siamese Small-E-Czech (Electra-small)	P@10: 45.26
document-ranking-on-dareczech	Query-doc RobeCzech (Roberta-base)	P@10: 46.73
document-ranking-on-dareczech	Query-doc Small-E-Czech (Electra-small)	P@10: 46.30

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供