This paper introduces Conformal Thresholded Intervals (CTI), a novel conformal regression method that aims to produce the smallest possible prediction set with guaranteed coverage. Unlike existing methods that rely on nested conformal frameworks and full conditional distribution estimation, CTI estimates the conditional probability density for a new response to fall into each interquantile interval using off-the-shelf multi-output quantile regression. By leveraging the inverse relationship between interval length and probability density, CTI constructs prediction sets by thresholding the estimated conditional interquantile intervals based on their length. The optimal threshold is determined using a calibration set to ensure marginal coverage, effectively balancing the trade-off between prediction set size and coverage. CTI's approach is computationally efficient and avoids the complexity of estimating the full conditional distribution. The method is theoretically grounded, with provable guarantees for marginal coverage and achieving the smallest prediction size given by Neyman-Pearson . Extensive experimental results demonstrate that CTI achieves superior performance compared to state-of-the-art conformal regression methods across various datasets, consistently producing smaller prediction sets while maintaining the desired coverage level. The proposed method offers a simple yet effective solution for reliable uncertainty quantification in regression tasks, making it an attractive choice for practitioners seeking accurate and efficient conformal prediction.
- 論文ID: 2407.14495
- タイトル: Conformal Thresholded Intervals for Efficient Regression
- 著者: Rui Luo (香港シティ大学), Zhixin Zhou (Alpha Benito Research)
- 分類: cs.LG, stat.ML
- 発表時期/会議: AAAI 2025
- 論文リンク: https://arxiv.org/abs/2407.14495
- コードリンク: https://github.com/luo-lorry/CTI
本論文は、保形閾値化区間(Conformal Thresholded Intervals, CTI)を提案している。これは保形回帰の新しい手法であり、カバレッジを保証しながら可能な限り小さい予測集合を生成することを目的としている。ネストされた保形フレームワークと完全な条件分布推定に依存する既存の手法とは異なり、CTIは既製の多出力分位数回帰を使用して、新しい応答が各分位数間区間に落ちる条件付き確率密度を推定する。区間長と確率密度の間の逆比例関係を利用することで、CTIは推定された条件付き分位数間区間の長さに基づいてそれらを閾値化することにより予測集合を構築する。キャリブレーション集合を使用して最適な閾値を決定し、周辺カバレッジを確保することで、予測集合のサイズとカバレッジ間のトレードオフを効果的にバランスさせる。
保形予測は、有限サンプルカバレッジ保証を持つ予測集合を構築するための強力なフレームワークである。既存の回帰保形手法は主に2つのカテゴリに分類される:
- 分位数回帰モデルを直接使用して区間の下端点と上端点を予測する方法
- 完全な条件分布を最初に推定し、その後反転して予測集合を得る方法
- 分位数回帰手法:通常、等尾区間を生成するが、歪んだ条件分布に対しては、最短有効区間は不均衡である可能性がある
- 密度推定手法:歪度に適応できるが、通常は多くのチューニングパラメータを含み、解釈が困難で、実務者にとって複雑である
- 既存の手法は条件分布が歪んでいる場合、次善の予測集合を生成する可能性がある
- データの局所密度に適応でき、かつ計算効率が高い手法が必要である
- 完全な条件分布推定の複雑性を回避したい
- CTI手法の提案:多出力分位数回帰を利用して条件付き分位数間区間を推定し、これらの区間を閾値化することで予測集合を構築する新しい保形予測回帰手法
- 理論分析:CTIが周辺カバレッジを保証し、特定の条件下で期待される条件付きカバレッジと最小期待予測区間長を実現できることを証明
- 実験検証:シミュレーションと実データセットに対する広範な数値実験により、CTIが有効なカバレッジを維持しながらより小さい予測集合を生成することを実証
- 実用性:手法は単純で実装と解釈が容易であり、信頼できる不確実性定量化を求める実務者にとって魅力的である
回帰問題データセット {(xi,yi)}i=1n が与えられている。ここで xi∈X⊆Rd、yi∈Y⊆R である。目標は、各テスト入力 x に対して予測集合 C(x)⊆Y を出力する保形予測器を構築することであり、以下を満たす:
P(Y∈C(X))≥1−α
同時に予測集合の期待サイズを最小化する。
CTIの重要な洞察は、区間長と確率密度の逆比例関係を利用することである。条件付き確率密度 f(y∣x) に対して、分位数回帰が十分に正確である場合:
f(y∣x)≈K⋅μ(Ik(x))1
ここで μ(Ik(x)) は区間 Ik(x) の長さである。
ステップ1:多出力分位数回帰
訓練集合に分位数回帰を適用し、条件分布 Y∣X=x の第 τ 分位数を予測する:
q^k(x) for k=0,1,…,K
ここで τ=k/K である。
ステップ2:分位数間区間の定義Ik(x)=(q^k−1(x),q^k(x)] for k=1,…,K
ステップ3:予測集合の構築
区間長の閾値化に基づく:
C(x)=⋃{Ik(x):μ(Ik(x))≤t,k=1,…,K}
ステップ4:閾値の決定
キャリブレーション集合を使用して閾値 t を決定する:
t=(1−α)-th quantile of 1+∣Ical∣1∑i∈Icalδμ(Ik(yi)(xi))+δ∞
- 直接閾値化戦略:CHRが応答空間の明示的なビニング化を必要とするのとは異なり、CTIは多出力分位数回帰モデルを直接訓練する
- グローバル閾値化:CTIはすべての x 値の分位数間区間に対してグローバルな視点から閾値化を採用し、周辺カバレッジの効率を向上させる
- 理論的最適性:Neyman-Pearson補題に基づき、CTIは理論的に最適予測集合に近い
シミュレーションデータ:
- n=10000 個のサンプルを生成、Xi∼Uniform[0,1]
- 応答変数:y∼Triangular(0,x,x)
- 条件密度:f(y∣x)=x22y1{y∈(0,x)}
実データセット(13個):
bike, bio, blog, community, concrete, facebook1, facebook2, homes, meps19, meps20, meps21, star等
- カバレッジ(Coverage):予測集合が真の値を含む比率
- 予測集合サイズ(Size):予測集合の平均長/測度
- Split Conformal:基本的な分割保形手法
- CQR (Conformal Quantile Regression):保形分位数回帰
- CHR (Conformal Histogram Regression):保形ヒストグラム回帰
- データ分割:テスト20%、残りデータの70%を訓練、30%をキャリブレーション
- 分位数数:K=100
- 基礎モデル:ランダムフォレスト(RF)とニューラルネットワーク(NN)
- 繰り返し実験:10回の独立実行
- 有意水準:α=0.1(90%カバレッジ)
シミュレーションデータの結果:
- CTI理論期待集合サイズ:0.317
- CHR理論期待集合サイズ:0.342
- CQR理論期待集合サイズ:0.376
- CTI実際の性能:CTI(RF) 0.345±0.005、CTI(NN) 0.369±0.015
- すべての手法が約90%のカバレッジを達成
実データセットの結果:
13個のデータセット中11個において、CTIは他の手法よりも小さい予測集合を生成しながら、必要なカバレッジレベルを維持した。
- 一貫した優位性:CTIはほとんどのデータセットでベースライン手法を上回る
- モデル依存性:CTIの効率は基礎となる分位数回帰モデルの品質に依存する
- 小規模データセットの課題:サンプルサイズが小さいデータセット(例:star、n=2161)ではCQRがより良い性能を示す可能性がある
区間長分析:
応答区間長とすべての区間長の分布を比較することで、CTIの性能は特定のデータセットと基礎となる分位数回帰モデルに依存することが判明した。理論的には2つの分布の平均値の差はゼロであるべきだが、実際には偏差が存在し、手法がデータとモデルに依存していることが強調される。
- 従来の手法:Hunter & Lange (2000)、Meinshausen (2006)等
- 多分位数推定:Cho et al. (2017)は複数の分位数を同時に推定することが個別に推定するより効果的であることを提案
- 非交差制約:Moon et al. (2021)、Brando et al. (2022)等が分位数交差の問題に対処
- ネストされた保形予測:Romano et al. (2019)、Sesia & Candès (2020)等
- 密度推定手法:Izbicki et al. (2020)、Sesia & Romano (2021)等
- 本論文の革新:完全な条件分布ではなく条件付き確率密度を直接推定
- CTIは単純で効果的な保形回帰手法を提供する
- 分位数間区間を閾値化することで、CTIは既存の手法よりも小さい予測集合を生成できる
- 手法はNeyman-Pearson補題による理論的支援があり、最適性を保証する
- 実験により、複数のデータセットにおける手法の有効性が検証された
- 区間制限:現在の実装は予測集合が常に区間形式であることを保証しない
- モデル依存:性能は基礎となる分位数回帰モデルの正確性に大きく依存する
- 小サンプルの課題:小規模データセットでは従来の手法ほど良好でない可能性がある
- パラメータ選択:分位数数 K の選択は表現力と計算効率のバランスが必要
- 区間形式の予測集合を生成できるCTIの変種の開発
- 小サンプル状況での性能改善
- 分位数数 K を適応的に選択する方法の研究
- 他の不確実性定量化手法との統合
- 堅実な理論的基礎:Neyman-Pearson補題に基づく理論的最適性保証
- 手法の簡潔性:完全な条件分布推定の複雑性を回避
- 十分な実験:シミュレーションと実データに対する広範な検証
- 高い実用価値:実装と解釈が容易で、実務者に適している
- 強い革新性:分類における閾値化の考え方を回帰問題に成功裏に適用
- 適用範囲:小規模サンプルデータセットでの性能が低下する可能性
- 予測集合の形状:予測集合が区間形式であることを保証できず、不連続な予測集合を生成する可能性
- 超パラメータ感度:分位数数 K の選択に対して比較的敏感
- 理論分析:一部の理論結果は比較的強い仮定条件に基づいている
- 学術的貢献:保形予測分野に新しい思考と手法をもたらす
- 実用価値:単純で効率的な特性により、良好な応用前景を持つ
- 再現性:オープンソースコードを提供し、再現と拡張を容易にする
- 中大規模データセット:サンプルサイズが十分な場合に最適な効果
- 不確実性定量化:信頼できる信頼区間が必要な回帰タスク
- リアルタイム応用:計算効率要件が高いシナリオ
- 歪んだ分布:条件分布が歪度を持つ回帰問題
- Romano, Y., Patterson, E., and Candès, E. (2019). Conformalized quantile regression. NeurIPS.
- Sesia, M., and Romano, Y. (2021). Conformal prediction using conditional histograms. NeurIPS.
- Meinshausen, N. (2006). Quantile regression forests. JMLR.
- Sadinle, M., Lei, J., and Wasserman, L. (2019). Least ambiguous set-valued classifiers with bounded error levels. JASA.