3 个月前

Shifts:一个跨多个大规模任务的真实分布偏移数据集

Shifts:一个跨多个大规模任务的真实分布偏移数据集

摘要

在提升模型对分布偏移(distributional shift)的鲁棒性以及不确定性估计方面,已有大量研究工作开展。相比之下,针对评估这些方法的标准数据集和基准测试体系的研究则相对有限。此外,目前绝大多数关于不确定性估计与鲁棒性的研究,均基于小规模的回归任务或图像分类任务来开发新方法。然而,许多具有实际应用价值的任务涉及不同的数据模态,如表格数据、音频、文本或传感器数据,这些模态在回归任务以及离散或连续结构化预测中带来了显著挑战。因此,鉴于当前领域的发展现状,亟需建立一个标准化的、大规模的跨模态数据集,涵盖受分布偏移影响的多种任务类型。该数据集将使研究人员能够对近期涌现的大量不确定性量化方法进行有意义的评估,并为评估标准与最先进基线提供统一的测试平台。本文提出“Shifts Dataset”——一个用于评估不确定性估计与对分布偏移鲁棒性的数据集。该数据集来源于工业场景中的真实数据源与服务,包含三个任务,分别对应三种典型的数据模态:表格型天气预测、机器翻译以及自动驾驶汽车(Self-Driving Car, SDC)的车辆运动预测。所有这些数据模态与任务均受到真实世界中“野外”(in-the-wild)分布偏移的影响,且在不确定性估计方面提出了具有挑战性的问题。本文将详细介绍该数据集的构成,并提供各项任务的基准实验结果。

代码仓库

yandex-research/shifts
官方
pytorch
GitHub 中提及
shifts-project/shifts
pytorch
GitHub 中提及

基准测试

基准方法指标
weather-forecasting-on-shiftsCatBoost with RMSEWithUncertainty
R-AUC MSE: 1.3353865316

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Shifts:一个跨多个大规模任务的真实分布偏移数据集 | 论文 | HyperAI超神经