3 个月前

用于快速自适应预测区间的回归树

用于快速自适应预测区间的回归树

摘要

预测模型难免出错,因此有必要对预测结果所伴随的不确定性进行量化。近年来,保形推断(conformal inference)作为一种强大工具,被广泛用于构建点预测周围的统计有效预测区间。然而,若将保形推断直接应用于回归问题,所得预测区间往往缺乏自适应性。为克服这一局限,研究者提出了新型保形评分(conformal scores),这些方法通常依赖于分位数回归器或条件密度估计器。尽管这些评分在构造预测带方面具有实用性,但它们与原始目标——即对任意预测模型的不确定性进行量化——之间存在脱节。本文提出了一类全新的、模型无关(model-agnostic)的方法族,用于校准回归问题中的预测区间,并在局部覆盖(local coverage)方面提供理论保证。我们的方法核心思想是寻找能够近似实现条件覆盖(conditional coverage)的最粗粒度特征空间划分。通过在保形评分上训练回归树(regression trees)和随机森林(Random Forests),我们实现了这一划分过程。所提方法具有高度灵活性,适用于多种保形评分和不同的预测场景,并在模拟数据与真实世界数据集上均展现出优于现有基准方法的可扩展性与性能表现。为便于实际应用,我们开发了一个名为 clover 的 Python 工具包,其接口遵循标准的 scikit-learn 风格,用户可无缝集成至现有机器学习工作流中。

代码仓库

monoxido45/clover
官方
GitHub 中提及
monoxido45/locart
官方
GitHub 中提及

基准测试

基准方法指标
regression-on-car-price-predictionLinear and Decision Tree Regression
R Squared: 86.843

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于快速自适应预测区间的回归树 | 论文 | HyperAI超神经