Andrey MalininNeil BandGanshinAlexanderGerman ChesnokovYarin GalMark J. F. GalesAlexey NoskovAndrey PloskonosovLiudmila ProkhorenkovaIvan ProvilkovVatsal RainaVyas RainaRoginskiyDenisMariya ShmatovaPanos TigasBoris Yangel

摘要
在提升模型对分布偏移(distributional shift)的鲁棒性以及不确定性估计方面,已有大量研究工作开展。相比之下,针对评估这些方法的标准数据集和基准测试体系的研究则相对有限。此外,目前绝大多数关于不确定性估计与鲁棒性的研究,均基于小规模的回归任务或图像分类任务来开发新方法。然而,许多具有实际应用价值的任务涉及不同的数据模态,如表格数据、音频、文本或传感器数据,这些模态在回归任务以及离散或连续结构化预测中带来了显著挑战。因此,鉴于当前领域的发展现状,亟需建立一个标准化的、大规模的跨模态数据集,涵盖受分布偏移影响的多种任务类型。该数据集将使研究人员能够对近期涌现的大量不确定性量化方法进行有意义的评估,并为评估标准与最先进基线提供统一的测试平台。本文提出“Shifts Dataset”——一个用于评估不确定性估计与对分布偏移鲁棒性的数据集。该数据集来源于工业场景中的真实数据源与服务,包含三个任务,分别对应三种典型的数据模态:表格型天气预测、机器翻译以及自动驾驶汽车(Self-Driving Car, SDC)的车辆运动预测。所有这些数据模态与任务均受到真实世界中“野外”(in-the-wild)分布偏移的影响,且在不确定性估计方面提出了具有挑战性的问题。本文将详细介绍该数据集的构成,并提供各项任务的基准实验结果。
代码仓库
yandex-research/shifts
官方
pytorch
GitHub 中提及
shifts-project/shifts
pytorch
GitHub 中提及
bond005/yandex-shifts-weather
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weather-forecasting-on-shifts | CatBoost with RMSEWithUncertainty | R-AUC MSE: 1.3353865316 |