This paper introduces Conformal Thresholded Intervals (CTI), a novel conformal regression method that aims to produce the smallest possible prediction set with guaranteed coverage. Unlike existing methods that rely on nested conformal frameworks and full conditional distribution estimation, CTI estimates the conditional probability density for a new response to fall into each interquantile interval using off-the-shelf multi-output quantile regression. By leveraging the inverse relationship between interval length and probability density, CTI constructs prediction sets by thresholding the estimated conditional interquantile intervals based on their length. The optimal threshold is determined using a calibration set to ensure marginal coverage, effectively balancing the trade-off between prediction set size and coverage. CTI's approach is computationally efficient and avoids the complexity of estimating the full conditional distribution. The method is theoretically grounded, with provable guarantees for marginal coverage and achieving the smallest prediction size given by Neyman-Pearson . Extensive experimental results demonstrate that CTI achieves superior performance compared to state-of-the-art conformal regression methods across various datasets, consistently producing smaller prediction sets while maintaining the desired coverage level. The proposed method offers a simple yet effective solution for reliable uncertainty quantification in regression tasks, making it an attractive choice for practitioners seeking accurate and efficient conformal prediction.
- 논문 ID: 2407.14495
- 제목: Conformal Thresholded Intervals for Efficient Regression
- 저자: Rui Luo (홍콩시립대학교), Zhixin Zhou (Alpha Benito Research)
- 분류: cs.LG, stat.ML
- 발표 시간/학회: AAAI 2025
- 논문 링크: https://arxiv.org/abs/2407.14495
- 코드 링크: https://github.com/luo-lorry/CTI
본 논문은 보형 임계값 구간(Conformal Thresholded Intervals, CTI)을 제안하며, 이는 커버리지를 보장하면서 가능한 한 작은 예측 집합을 생성하는 새로운 보형 회귀 방법이다. 중첩 보형 프레임워크와 완전한 조건부 분포 추정에 의존하는 기존 방법과 달리, CTI는 기성 다중 출력 분위수 회귀를 사용하여 새로운 응답이 각 분위수 간 구간에 속할 조건부 확률 밀도를 추정한다. 구간 길이와 확률 밀도 간의 역비례 관계를 활용하여, CTI는 추정된 조건부 분위수 간 구간의 길이를 기반으로 이를 임계값화하여 예측 집합을 구성한다. 보정 집합을 사용하여 최적 임계값을 결정함으로써 주변 커버리지를 보장하며, 예측 집합 크기와 커버리지 간의 트레이드오프를 효과적으로 균형 맞춘다.
보형 예측은 유한 표본 커버리지 보장을 갖는 예측 집합을 구성하기 위한 강력한 프레임워크이다. 기존의 회귀 보형 방법은 주로 두 가지로 분류된다:
- 분위수 회귀 모델을 직접 사용하여 구간의 하한과 상한을 예측
- 먼저 완전한 조건부 분포를 추정한 후 역으로 예측 집합을 도출
- 분위수 회귀 방법: 일반적으로 등꼬리 구간을 생성하지만, 비대칭 조건부 분포의 경우 최단 유효 구간이 불균형일 수 있음
- 밀도 추정 방법: 비대칭성에 적응할 수 있지만 일반적으로 많은 튜닝 매개변수를 포함하며, 해석이 어렵고 실무자에게 복잡함
- 기존 방법은 조건부 분포가 비대칭일 때 차선의 예측 집합을 생성할 수 있음
- 데이터의 국소 밀도에 적응하면서도 계산 효율적인 방법이 필요함
- 완전한 조건부 분포 추정의 복잡성을 피하고자 함
- CTI 방법 제안: 다중 출력 분위수 회귀를 활용하여 조건부 분위수 간 구간을 추정하고, 이 구간들을 임계값화하여 예측 집합을 구성하는 새로운 보형 예측 회귀 방법
- 이론적 분석: CTI가 주변 커버리지를 보장하며, 특정 조건 하에서 원하는 조건부 커버리지와 최소 기댓값 예측 구간 길이를 달성할 수 있음을 증명
- 실험 검증: 모의 및 실제 데이터 집합에 대한 광범위한 수치 실험으로 CTI가 유효한 커버리지를 유지하면서 더 작은 예측 집합을 생성함을 입증
- 실용성: 방법이 단순하고 구현 및 해석이 용이하여 신뢰할 수 있는 불확실성 정량화를 추구하는 실무자에게 매력적
회귀 문제 데이터 집합 {(xi,yi)}i=1n이 주어졌을 때, 여기서 xi∈X⊆Rd, yi∈Y⊆R. 목표는 각 테스트 입력 x에 대해 예측 집합 C(x)⊆Y를 출력하는 보형 예측기를 구성하는 것이며, 다음을 만족해야 한다:
P(Y∈C(X))≥1−α
동시에 예측 집합의 기댓값 크기를 최소화한다.
CTI의 핵심 통찰력은 구간 길이와 확률 밀도 간의 역비례 관계를 활용하는 것이다. 조건부 확률 밀도 f(y∣x)에 대해, 분위수 회귀가 충분히 정확하면:
f(y∣x)≈K⋅μ(Ik(x))1
여기서 μ(Ik(x))는 구간 Ik(x)의 길이이다.
단계 1: 다중 출력 분위수 회귀
훈련 집합에서 분위수 회귀를 적용하여 조건부 분포 Y∣X=x의 τ 분위수를 예측:
q^k(x) for k=0,1,…,K
여기서 τ=k/K.
단계 2: 분위수 간 구간 정의Ik(x)=(q^k−1(x),q^k(x)] for k=1,…,K
단계 3: 예측 집합 구성
구간 길이의 임계값화를 기반으로:
C(x)=⋃{Ik(x):μ(Ik(x))≤t,k=1,…,K}
단계 4: 임계값 결정
보정 집합을 사용하여 임계값 t 결정:
t=(1−α)-번째 분위수 of 1+∣Ical∣1∑i∈Icalδμ(Ik(yi)(xi))+δ∞
- 직접 임계값화 전략: CHR이 응답 공간을 명시적으로 분할해야 하는 것과 달리, CTI는 다중 출력 분위수 회귀 모델을 직접 훈련
- 전역 임계값화: CTI는 모든 x 값의 분위수 간 구간에 대해 전역적 관점에서 임계값화를 수행하여 주변 커버리지의 효율성 향상
- 이론적 최적성: Neyman-Pearson 보조정리를 기반으로 CTI는 이론적으로 최적 예측 집합에 근접
모의 데이터:
- n=10000개 표본 생성, Xi∼Uniform[0,1]
- 응답 변수: y∼Triangular(0,x,x)
- 조건부 밀도: f(y∣x)=x22y1{y∈(0,x)}
실제 데이터 집합(13개):
bike, bio, blog, community, concrete, facebook1, facebook2, homes, meps19, meps20, meps21, star 등
- 커버리지(Coverage): 예측 집합이 실제 값을 포함하는 비율
- 예측 집합 크기(Size): 예측 집합의 평균 길이/측도
- Split Conformal: 기본 분할 보형 방법
- CQR (Conformal Quantile Regression): 보형 분위수 회귀
- CHR (Conformal Histogram Regression): 보형 히스토그램 회귀
- 데이터 분할: 20% 테스트, 나머지 데이터 중 70% 훈련, 30% 보정
- 분위수 개수: K=100
- 기본 모델: 랜덤 포레스트(RF) 및 신경망(NN)
- 반복 실험: 10회 독립 실행
- 유의수준: α=0.1 (90% 커버리지)
모의 데이터 결과:
- CTI 이론적 기댓값 집합 크기: 0.317
- CHR 이론적 기댓값 집합 크기: 0.342
- CQR 이론적 기댓값 집합 크기: 0.376
- CTI 실제 성능: CTI(RF) 0.345±0.005, CTI(NN) 0.369±0.015
- 모든 방법이 약 90%의 커버리지 달성
실제 데이터 집합 결과:
13개 데이터 집합 중 11개에서 CTI는 다른 방법보다 더 작은 예측 집합을 생성하면서 원하는 커버리지 수준을 유지했다.
- 일관된 우월성: CTI는 대부분의 데이터 집합에서 기준 방법을 능가
- 모델 의존성: CTI의 효율성은 기본 분위수 회귀 모델의 품질에 의존
- 소규모 데이터 집합 과제: 표본 크기가 작은 데이터 집합(예: star, n=2161)에서는 CQR이 더 나은 성능을 보일 수 있음
구간 길이 분석:
응답 구간 길이와 모든 구간 길이의 분포를 비교함으로써, CTI의 성능이 특정 데이터 집합과 기본 분위수 회귀 모델에 의존함을 발견. 이론적으로 두 분포의 평균 차이는 0이어야 하지만 실제로는 편차가 존재하며, 이는 방법이 데이터와 모델에 미치는 의존성을 강조한다.
- 전통적 방법: Hunter & Lange (2000), Meinshausen (2006) 등
- 다중 분위수 추정: Cho et al. (2017)은 여러 분위수를 동시에 추정하는 것이 개별 추정보다 더 효과적임을 제안
- 비교차 제약: Moon et al. (2021), Brando et al. (2022) 등이 분위수 교차 문제 해결
- 중첩 보형 예측: Romano et al. (2019), Sesia & Candès (2020) 등
- 밀도 추정 방법: Izbicki et al. (2020), Sesia & Romano (2021) 등
- 본 논문의 혁신: 완전한 조건부 분포가 아닌 조건부 확률 밀도를 직접 추정
- CTI는 단순하고 효과적인 보형 회귀 방법을 제공
- 분위수 간 구간을 임계값화함으로써 CTI는 기존 방법보다 더 작은 예측 집합을 생성
- 방법은 Neyman-Pearson 보조정리의 지원을 받아 최적성을 보장
- 실험은 여러 데이터 집합에서 방법의 효과성을 검증
- 구간 제약: 현재 구현은 예측 집합이 항상 구간 형태임을 보장하지 않음
- 모델 의존성: 성능이 기본 분위수 회귀 모델의 정확성에 크게 의존
- 소표본 과제: 소규모 데이터 집합에서 전통적 방법보다 성능이 떨어질 수 있음
- 매개변수 선택: 분위수 개수 K의 선택은 표현력과 계산 효율성 간의 균형이 필요
- 구간 형태의 예측 집합을 생성할 수 있는 CTI 변형 개발
- 소표본 경우의 성능 개선
- 분위수 개수 K를 자적응적으로 선택하는 방법 연구
- 다른 불확실성 정량화 방법과의 결합
- 견고한 이론적 기초: Neyman-Pearson 보조정리를 기반으로 한 이론적 최적성 보장
- 방법의 단순성: 완전한 조건부 분포 추정의 복잡성 회피
- 충분한 실험: 모의 및 실제 데이터에 대한 광범위한 검증
- 높은 실용 가치: 구현 및 해석이 용이하여 실무자에게 적합
- 강한 혁신성: 분류의 임계값화 개념을 회귀 문제에 성공적으로 적용
- 적용 범위: 소규모 표본 데이터 집합에서 성능이 저하될 수 있음
- 예측 집합 형태: 구간 형태의 예측 집합을 보장할 수 없으며, 불연속 예측 집합을 생성할 수 있음
- 초매개변수 민감성: 분위수 개수 K의 선택에 대해 상대적으로 민감
- 이론적 분석: 일부 이론적 결과가 비교적 강한 가정 조건을 기반으로 함
- 학술적 기여: 보형 예측 분야에 새로운 사고방식과 방법 제공
- 실용적 가치: 단순하고 효율적인 특성으로 인한 우수한 응용 전망
- 재현성: 오픈소스 코드 제공으로 재현 및 확장 용이
- 중대형 데이터 집합: 표본 크기가 충분할 때 최적의 효과
- 불확실성 정량화: 신뢰할 수 있는 신뢰 구간이 필요한 회귀 작업
- 실시간 응용: 계산 효율성 요구가 높은 시나리오
- 비대칭 분포: 조건부 분포가 비대칭인 회귀 문제
- Romano, Y., Patterson, E., and Candès, E. (2019). Conformalized quantile regression. NeurIPS.
- Sesia, M., and Romano, Y. (2021). Conformal prediction using conditional histograms. NeurIPS.
- Meinshausen, N. (2006). Quantile regression forests. JMLR.
- Sadinle, M., Lei, J., and Wasserman, L. (2019). Least ambiguous set-valued classifiers with bounded error levels. JASA.