2025-11-22T03:43:22.732686

Conformal Thresholded Intervals for Efficient Regression

Luo, Zhou
This paper introduces Conformal Thresholded Intervals (CTI), a novel conformal regression method that aims to produce the smallest possible prediction set with guaranteed coverage. Unlike existing methods that rely on nested conformal frameworks and full conditional distribution estimation, CTI estimates the conditional probability density for a new response to fall into each interquantile interval using off-the-shelf multi-output quantile regression. By leveraging the inverse relationship between interval length and probability density, CTI constructs prediction sets by thresholding the estimated conditional interquantile intervals based on their length. The optimal threshold is determined using a calibration set to ensure marginal coverage, effectively balancing the trade-off between prediction set size and coverage. CTI's approach is computationally efficient and avoids the complexity of estimating the full conditional distribution. The method is theoretically grounded, with provable guarantees for marginal coverage and achieving the smallest prediction size given by Neyman-Pearson . Extensive experimental results demonstrate that CTI achieves superior performance compared to state-of-the-art conformal regression methods across various datasets, consistently producing smaller prediction sets while maintaining the desired coverage level. The proposed method offers a simple yet effective solution for reliable uncertainty quantification in regression tasks, making it an attractive choice for practitioners seeking accurate and efficient conformal prediction.
academic

Conformal Thresholded Intervals for Efficient Regression

基本信息

摘要

本文提出了保形阈值化区间(Conformal Thresholded Intervals, CTI),这是一种新颖的保形回归方法,旨在在保证覆盖率的前提下产生尽可能小的预测集。与依赖嵌套保形框架和完整条件分布估计的现有方法不同,CTI使用现成的多输出分位数回归来估计新响应落入每个分位数间区间的条件概率密度。通过利用区间长度与概率密度之间的反比关系,CTI基于估计的条件分位数间区间的长度对其进行阈值化来构建预测集。使用校准集确定最优阈值以确保边际覆盖率,有效平衡预测集大小与覆盖率之间的权衡。

研究背景与动机

问题背景

保形预测是一个强大的框架,用于构建具有有限样本覆盖保证的预测集。现有的回归保形方法主要分为两类:

  1. 直接使用分位数回归模型预测区间的下端点和上端点
  2. 首先估计完整的条件分布,然后反演得到预测集

现有方法的局限性

  1. 分位数回归方法:通常产生等尾区间,但对于偏斜的条件分布,最短有效区间可能是不平衡的
  2. 密度估计方法:能够适应偏斜性,但通常涉及许多调优参数,解释困难,对实践者来说复杂

研究动机

  • 现有方法在条件分布偏斜时可能产生次优预测集
  • 需要一种既能适应数据局部密度又计算高效的方法
  • 希望避免估计完整条件分布的复杂性

核心贡献

  1. 提出CTI方法:一种新的保形预测回归方法,利用多输出分位数回归估计条件分位数间区间,通过阈值化这些区间构建预测集
  2. 理论分析:证明CTI保证边际覆盖率,在特定条件下能实现期望的条件覆盖率和最小期望预测区间长度
  3. 实验验证:在模拟和真实数据集上的广泛数值实验,证明CTI在保持有效覆盖率的同时产生更小的预测集
  4. 实用性:方法简单易实现和解释,对寻求可靠不确定性量化的实践者具有吸引力

方法详解

任务定义

给定回归问题数据集 {(xi,yi)}i=1n\{(x_i, y_i)\}_{i=1}^n,其中 xiXRdx_i \in \mathcal{X} \subseteq \mathbb{R}^dyiYRy_i \in \mathcal{Y} \subseteq \mathbb{R}。目标是构建保形预测器,为每个测试输入 xx 输出预测集 C(x)YC(x) \subseteq \mathcal{Y},满足: P(YC(X))1αP(Y \in C(X)) \geq 1-\alpha 同时最小化预测集的期望大小。

模型架构

核心思想

CTI的关键洞察是利用区间长度与概率密度的反比关系。对于条件概率密度 f(yx)f(y|x),如果分位数回归足够准确,则: f(yx)1Kμ(Ik(x))f(y|x) \approx \frac{1}{K \cdot \mu(I_k(x))} 其中 μ(Ik(x))\mu(I_k(x)) 是区间 Ik(x)I_k(x) 的长度。

算法流程

步骤1:多输出分位数回归 在训练集上应用分位数回归,预测条件分布 YX=xY|X=x 的第 τ\tau 分位数: q^k(x) for k=0,1,,K\hat{q}_k(x) \text{ for } k = 0, 1, \ldots, K 其中 τ=k/K\tau = k/K

步骤2:定义分位数间区间Ik(x)=(q^k1(x),q^k(x)] for k=1,,KI_k(x) = (\hat{q}_{k-1}(x), \hat{q}_k(x)] \text{ for } k = 1, \ldots, K

步骤3:构建预测集 基于区间长度的阈值化: C(x)={Ik(x):μ(Ik(x))t,k=1,,K}C(x) = \bigcup\{I_k(x) : \mu(I_k(x)) \leq t, k = 1, \ldots, K\}

步骤4:确定阈值 使用校准集确定阈值 ttt=(1α)-th quantile of 11+IcaliIcalδμ(Ik(yi)(xi))+δt = (1-\alpha)\text{-th quantile of } \frac{1}{1+|\mathcal{I}_{cal}|}\sum_{i \in \mathcal{I}_{cal}} \delta_{\mu(I_{k(y_i)}(x_i))} + \delta_\infty

技术创新点

  1. 直接阈值化策略:不同于CHR需要显式分箱响应空间,CTI直接训练多输出分位数回归模型
  2. 全局阈值化:CTI采用全局视角对所有 xx 值的分位数间区间进行阈值化,提高边际覆盖率的效率
  3. 理论最优性:基于Neyman-Pearson引理,CTI在理论上接近最优预测集

实验设置

数据集

模拟数据

  • 生成 n=10000n = 10000 个样本,XiUniform[0,1]X_i \sim \text{Uniform}[0,1]
  • 响应变量:yTriangular(0,x,x)y \sim \text{Triangular}(0, x, x)
  • 条件密度:f(yx)=2yx21{y(0,x)}f(y|x) = \frac{2y}{x^2}\mathbf{1}\{y \in (0,x)\}

真实数据集(13个): bike, bio, blog, community, concrete, facebook1, facebook2, homes, meps19, meps20, meps21, star等

评价指标

  1. 覆盖率(Coverage):预测集包含真实值的比例
  2. 预测集大小(Size):预测集的平均长度/测度

对比方法

  • Split Conformal:基本的分割保形方法
  • CQR (Conformal Quantile Regression):保形分位数回归
  • CHR (Conformal Histogram Regression):保形直方图回归

实现细节

  • 数据划分:20%测试,剩余数据中70%训练,30%校准
  • 分位数数量:K=100K = 100
  • 基础模型:随机森林(RF)和神经网络(NN)
  • 重复实验:10次独立运行
  • 显著性水平:α=0.1\alpha = 0.1(90%覆盖率)

实验结果

主要结果

模拟数据结果

  • CTI理论期望集合大小:0.317
  • CHR理论期望集合大小:0.342
  • CQR理论期望集合大小:0.376
  • CTI实际表现:CTI(RF) 0.345±0.005,CTI(NN) 0.369±0.015
  • 所有方法都达到了约90%的覆盖率

真实数据集结果: 在13个数据集中的11个上,CTI都产生了比其他方法更小的预测集,同时保持了所需的覆盖水平。

关键发现

  1. 一致性优势:CTI在大多数数据集上都优于基线方法
  2. 模型依赖性:CTI的效率依赖于底层分位数回归模型的质量
  3. 小数据集挑战:在样本量较小的数据集(如star,n=2161)上,CQR可能表现更好

消融实验

区间长度分析: 通过比较响应区间长度与所有区间长度的分布,发现CTI的性能依赖于特定数据集和底层分位数回归模型。理论上两个分布的均值差应为零,但实际存在偏差,突出了方法对数据和模型的依赖性。

相关工作

分位数回归方法

  • 传统方法:Hunter & Lange (2000), Meinshausen (2006)等
  • 多分位数估计:Cho et al. (2017)提出同时估计多个分位数比单独估计更有效
  • 非交叉约束:Moon et al. (2021), Brando et al. (2022)等解决分位数交叉问题

保形预测方法

  • 嵌套保形预测:Romano et al. (2019), Sesia & Candès (2020)等
  • 密度估计方法:Izbicki et al. (2020), Sesia & Romano (2021)等
  • 本文创新:直接估计条件概率密度而非完整条件分布

结论与讨论

主要结论

  1. CTI提供了一种简单有效的保形回归方法
  2. 通过阈值化分位数间区间,CTI能产生比现有方法更小的预测集
  3. 方法在理论上有Neyman-Pearson引理的支撑,保证了最优性
  4. 实验验证了方法在多个数据集上的有效性

局限性

  1. 区间限制:当前实现不保证预测集总是区间形式
  2. 模型依赖:性能高度依赖于底层分位数回归模型的准确性
  3. 小样本挑战:在小数据集上可能不如传统方法
  4. 参数选择:分位数数量K的选择需要平衡表达能力和计算效率

未来方向

  1. 开发能产生区间形式预测集的CTI变体
  2. 改进小样本情况下的性能
  3. 研究自适应选择分位数数量K的方法
  4. 与其他不确定性量化方法的结合

深度评价

优点

  1. 理论基础扎实:基于Neyman-Pearson引理的理论最优性保证
  2. 方法简洁:避免了完整条件分布估计的复杂性
  3. 实验充分:在模拟和真实数据上的广泛验证
  4. 实用价值高:易于实现和解释,适合实践者使用
  5. 创新性强:将分类中的阈值化思想成功应用到回归问题

不足

  1. 适用范围:在小样本数据集上表现可能不佳
  2. 预测集形状:不能保证预测集为区间形式,可能产生不连续的预测集
  3. 超参数敏感性:对分位数数量K的选择较为敏感
  4. 理论分析:部分理论结果基于较强的假设条件

影响力

  1. 学术贡献:为保形预测领域提供了新的思路和方法
  2. 实用价值:简单高效的特点使其具有良好的应用前景
  3. 可复现性:提供了开源代码,便于复现和扩展

适用场景

  1. 中大型数据集:样本量充足时效果最佳
  2. 不确定性量化:需要可靠置信区间的回归任务
  3. 实时应用:计算效率要求较高的场景
  4. 偏斜分布:条件分布具有偏斜性的回归问题

参考文献

  1. Romano, Y., Patterson, E., and Candès, E. (2019). Conformalized quantile regression. NeurIPS.
  2. Sesia, M., and Romano, Y. (2021). Conformal prediction using conditional histograms. NeurIPS.
  3. Meinshausen, N. (2006). Quantile regression forests. JMLR.
  4. Sadinle, M., Lei, J., and Wasserman, L. (2019). Least ambiguous set-valued classifiers with bounded error levels. JASA.