2025-11-22T03:43:22.732686

Conformal Thresholded Intervals for Efficient Regression

Luo, Zhou
This paper introduces Conformal Thresholded Intervals (CTI), a novel conformal regression method that aims to produce the smallest possible prediction set with guaranteed coverage. Unlike existing methods that rely on nested conformal frameworks and full conditional distribution estimation, CTI estimates the conditional probability density for a new response to fall into each interquantile interval using off-the-shelf multi-output quantile regression. By leveraging the inverse relationship between interval length and probability density, CTI constructs prediction sets by thresholding the estimated conditional interquantile intervals based on their length. The optimal threshold is determined using a calibration set to ensure marginal coverage, effectively balancing the trade-off between prediction set size and coverage. CTI's approach is computationally efficient and avoids the complexity of estimating the full conditional distribution. The method is theoretically grounded, with provable guarantees for marginal coverage and achieving the smallest prediction size given by Neyman-Pearson . Extensive experimental results demonstrate that CTI achieves superior performance compared to state-of-the-art conformal regression methods across various datasets, consistently producing smaller prediction sets while maintaining the desired coverage level. The proposed method offers a simple yet effective solution for reliable uncertainty quantification in regression tasks, making it an attractive choice for practitioners seeking accurate and efficient conformal prediction.
academic

Intervalles Seuillés Conformes pour la Régression Efficace

Informations Fondamentales

  • ID de l'article : 2407.14495
  • Titre : Conformal Thresholded Intervals for Efficient Regression
  • Auteurs : Rui Luo (City University of Hong Kong), Zhixin Zhou (Alpha Benito Research)
  • Classification : cs.LG, stat.ML
  • Date de publication/Conférence : AAAI 2025
  • Lien de l'article : https://arxiv.org/abs/2407.14495
  • Lien du code : https://github.com/luo-lorry/CTI

Résumé

Cet article propose les Intervalles Seuillés Conformes (Conformal Thresholded Intervals, CTI), une nouvelle méthode de régression conforme visant à produire des ensembles de prédiction aussi petits que possible tout en garantissant la couverture. Contrairement aux méthodes existantes qui s'appuient sur des cadres conformes imbriqués et l'estimation complète de distributions conditionnelles, CTI utilise la régression quantile multi-sortie prête à l'emploi pour estimer la densité de probabilité conditionnelle que la nouvelle réponse tombe dans chaque intervalle inter-quantile. En exploitant la relation inverse entre la longueur de l'intervalle et la densité de probabilité, CTI construit des ensembles de prédiction en seuillant les intervalles inter-quantiles estimés en fonction de leur longueur. Un ensemble de calibrage détermine le seuil optimal pour assurer la couverture marginale, équilibrant efficacement le compromis entre la taille de l'ensemble de prédiction et la couverture.

Contexte et Motivation de la Recherche

Contexte du Problème

La prédiction conforme est un cadre puissant pour construire des ensembles de prédiction avec des garanties de couverture en échantillon fini. Les méthodes conformes existantes pour la régression se divisent principalement en deux catégories :

  1. Utilisation directe de modèles de régression quantile pour prédire les points d'extrémité inférieur et supérieur des intervalles
  2. Estimation d'abord de la distribution conditionnelle complète, puis inversion pour obtenir les ensembles de prédiction

Limitations des Méthodes Existantes

  1. Méthodes de régression quantile : produisent généralement des intervalles à queues égales, mais pour les distributions conditionnelles asymétriques, l'intervalle efficace le plus court peut être déséquilibré
  2. Méthodes d'estimation de densité : peuvent s'adapter à l'asymétrie, mais impliquent généralement de nombreux paramètres d'ajustement, sont difficiles à interpréter et complexes pour les praticiens

Motivation de la Recherche

  • Les méthodes existantes peuvent produire des ensembles de prédiction sous-optimaux lorsque la distribution conditionnelle est asymétrique
  • Nécessité d'une méthode qui s'adapte à la densité locale des données tout en étant efficace sur le plan informatique
  • Désir d'éviter la complexité de l'estimation de la distribution conditionnelle complète

Contributions Principales

  1. Proposition de la méthode CTI : une nouvelle méthode de prédiction conforme pour la régression, utilisant la régression quantile multi-sortie pour estimer les intervalles inter-quantiles conditionnels et construisant des ensembles de prédiction par seuillage de ces intervalles
  2. Analyse théorique : preuve que CTI garantit la couverture marginale et peut réaliser la couverture conditionnelle souhaitée et la longueur minimale d'intervalle de prédiction attendue sous certaines conditions
  3. Vérification expérimentale : expériences numériques étendues sur des données simulées et réelles, démontrant que CTI produit des ensembles de prédiction plus petits tout en maintenant une couverture efficace
  4. Praticité : la méthode est simple à mettre en œuvre et à interpréter, attrayante pour les praticiens cherchant une quantification fiable de l'incertitude

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données de régression {(xi,yi)}i=1n\{(x_i, y_i)\}_{i=1}^n, où xiXRdx_i \in \mathcal{X} \subseteq \mathbb{R}^d, yiYRy_i \in \mathcal{Y} \subseteq \mathbb{R}. L'objectif est de construire un prédicteur conforme qui produit pour chaque entrée de test xx un ensemble de prédiction C(x)YC(x) \subseteq \mathcal{Y} satisfaisant : P(YC(X))1αP(Y \in C(X)) \geq 1-\alpha tout en minimisant la taille attendue de l'ensemble de prédiction.

Architecture du Modèle

Idée Centrale

L'intuition clé de CTI est d'exploiter la relation inverse entre la longueur de l'intervalle et la densité de probabilité. Pour la densité de probabilité conditionnelle f(yx)f(y|x), si la régression quantile est suffisamment précise, alors : f(yx)1Kμ(Ik(x))f(y|x) \approx \frac{1}{K \cdot \mu(I_k(x))}μ(Ik(x))\mu(I_k(x)) est la longueur de l'intervalle Ik(x)I_k(x).

Flux de l'Algorithme

Étape 1 : Régression Quantile Multi-Sortie Application de la régression quantile sur l'ensemble d'entraînement pour prédire le quantile τ\tau de la distribution conditionnelle YX=xY|X=x : q^k(x) pour k=0,1,,K\hat{q}_k(x) \text{ pour } k = 0, 1, \ldots, Kτ=k/K\tau = k/K.

Étape 2 : Définition des Intervalles Inter-QuantilesIk(x)=(q^k1(x),q^k(x)] pour k=1,,KI_k(x) = (\hat{q}_{k-1}(x), \hat{q}_k(x)] \text{ pour } k = 1, \ldots, K

Étape 3 : Construction de l'Ensemble de Prédiction Seuillage basé sur la longueur de l'intervalle : C(x)={Ik(x):μ(Ik(x))t,k=1,,K}C(x) = \bigcup\{I_k(x) : \mu(I_k(x)) \leq t, k = 1, \ldots, K\}

Étape 4 : Détermination du Seuil Utilisation de l'ensemble de calibrage pour déterminer le seuil tt : t=(1α)-eˋme quantile de 11+IcaliIcalδμ(Ik(yi)(xi))+δt = (1-\alpha)\text{-ème quantile de } \frac{1}{1+|\mathcal{I}_{cal}|}\sum_{i \in \mathcal{I}_{cal}} \delta_{\mu(I_{k(y_i)}(x_i))} + \delta_\infty

Points d'Innovation Technique

  1. Stratégie de Seuillage Direct : contrairement à CHR qui nécessite un binning explicite de l'espace de réponse, CTI entraîne directement un modèle de régression quantile multi-sortie
  2. Seuillage Global : CTI adopte une perspective globale pour seuiller les intervalles inter-quantiles pour toutes les valeurs de xx, améliorant l'efficacité de la couverture marginale
  3. Optimalité Théorique : basée sur le lemme de Neyman-Pearson, CTI est théoriquement proche de l'ensemble de prédiction optimal

Configuration Expérimentale

Ensembles de Données

Données Simulées :

  • Génération de n=10000n = 10000 échantillons, XiUniform[0,1]X_i \sim \text{Uniform}[0,1]
  • Variable de réponse : yTriangular(0,x,x)y \sim \text{Triangular}(0, x, x)
  • Densité conditionnelle : f(yx)=2yx21{y(0,x)}f(y|x) = \frac{2y}{x^2}\mathbf{1}\{y \in (0,x)\}

Ensembles de Données Réelles (13 ensembles) : bike, bio, blog, community, concrete, facebook1, facebook2, homes, meps19, meps20, meps21, star, etc.

Métriques d'Évaluation

  1. Couverture (Coverage) : proportion d'ensembles de prédiction contenant la valeur réelle
  2. Taille de l'Ensemble de Prédiction (Size) : longueur/mesure moyenne de l'ensemble de prédiction

Méthodes de Comparaison

  • Split Conformal : méthode conforme de division de base
  • CQR (Conformal Quantile Regression) : régression quantile conforme
  • CHR (Conformal Histogram Regression) : régression d'histogramme conforme

Détails d'Implémentation

  • Division des données : 20% test, 70% entraînement et 30% calibrage pour les données restantes
  • Nombre de quantiles : K=100K = 100
  • Modèles de base : Forêt Aléatoire (RF) et Réseau de Neurones (NN)
  • Exécutions répétées : 10 exécutions indépendantes
  • Niveau de signification : α=0.1\alpha = 0.1 (couverture de 90%)

Résultats Expérimentaux

Résultats Principaux

Résultats sur Données Simulées :

  • Taille d'ensemble attendue théorique de CTI : 0.317
  • Taille d'ensemble attendue théorique de CHR : 0.342
  • Taille d'ensemble attendue théorique de CQR : 0.376
  • Performance réelle de CTI : CTI(RF) 0.345±0.005, CTI(NN) 0.369±0.015
  • Toutes les méthodes ont atteint environ 90% de couverture

Résultats sur Ensembles de Données Réelles : Sur 13 ensembles de données, CTI a produit des ensembles de prédiction plus petits que les autres méthodes sur 11 d'entre eux, tout en maintenant le niveau de couverture souhaité.

Découvertes Clés

  1. Avantage Cohérent : CTI surpasse les méthodes de base sur la plupart des ensembles de données
  2. Dépendance au Modèle : l'efficacité de CTI dépend de la qualité du modèle de régression quantile sous-jacent
  3. Défis sur Petits Ensembles : sur les ensembles de données avec peu d'échantillons (comme star, n=2161), CQR peut performer mieux

Expériences d'Ablation

Analyse de la Longueur des Intervalles : En comparant la distribution des longueurs d'intervalle de réponse avec celle de tous les intervalles, on constate que la performance de CTI dépend de l'ensemble de données spécifique et du modèle de régression quantile sous-jacent. Théoriquement, la différence moyenne entre les deux distributions devrait être zéro, mais il existe des écarts en pratique, soulignant la dépendance de la méthode aux données et au modèle.

Travaux Connexes

Méthodes de Régression Quantile

  • Méthodes Traditionnelles : Hunter & Lange (2000), Meinshausen (2006), etc.
  • Estimation Multi-Quantile : Cho et al. (2017) proposent que l'estimation simultanée de plusieurs quantiles est plus efficace que l'estimation individuelle
  • Contraintes de Non-Croisement : Moon et al. (2021), Brando et al. (2022), etc. résolvent le problème du croisement des quantiles

Méthodes de Prédiction Conforme

  • Prédiction Conforme Imbriquée : Romano et al. (2019), Sesia & Candès (2020), etc.
  • Méthodes d'Estimation de Densité : Izbicki et al. (2020), Sesia & Romano (2021), etc.
  • Innovation de cet Article : estimation directe de la densité de probabilité conditionnelle plutôt que de la distribution conditionnelle complète

Conclusions et Discussion

Conclusions Principales

  1. CTI fournit une méthode de régression conforme simple et efficace
  2. En seuillant les intervalles inter-quantiles, CTI peut produire des ensembles de prédiction plus petits que les méthodes existantes
  3. La méthode est théoriquement soutenue par le lemme de Neyman-Pearson, garantissant l'optimalité
  4. Les expériences valident l'efficacité de la méthode sur plusieurs ensembles de données

Limitations

  1. Restriction d'Intervalle : l'implémentation actuelle ne garantit pas que l'ensemble de prédiction soit toujours de forme d'intervalle
  2. Dépendance au Modèle : la performance dépend fortement de la précision du modèle de régression quantile sous-jacent
  3. Défis sur Petits Échantillons : peut ne pas surpasser les méthodes traditionnelles sur les petits ensembles de données
  4. Sélection de Paramètres : le choix du nombre de quantiles K nécessite d'équilibrer la capacité d'expression et l'efficacité informatique

Directions Futures

  1. Développer des variantes de CTI produisant des ensembles de prédiction de forme d'intervalle
  2. Améliorer la performance dans les cas de petits échantillons
  3. Étudier des méthodes de sélection adaptative du nombre de quantiles K
  4. Combinaison avec d'autres méthodes de quantification de l'incertitude

Évaluation Approfondie

Avantages

  1. Fondations Théoriques Solides : garanties d'optimalité théorique basées sur le lemme de Neyman-Pearson
  2. Méthode Concise : évite la complexité de l'estimation de la distribution conditionnelle complète
  3. Expériences Complètes : vérification étendue sur données simulées et réelles
  4. Valeur Pratique Élevée : facile à mettre en œuvre et à interpréter, adaptée aux praticiens
  5. Innovation Forte : application réussie de l'idée de seuillage de la classification aux problèmes de régression

Insuffisances

  1. Portée d'Application : la performance peut être médiocre sur les ensembles de données de petite taille
  2. Forme de l'Ensemble de Prédiction : ne peut pas garantir que l'ensemble de prédiction soit de forme d'intervalle, pouvant produire des ensembles de prédiction discontinus
  3. Sensibilité aux Hyperparamètres : sensibilité relativement élevée au choix du nombre de quantiles K
  4. Analyse Théorique : certains résultats théoriques reposent sur des hypothèses relativement fortes

Impact

  1. Contribution Académique : fournit de nouvelles perspectives et méthodes au domaine de la prédiction conforme
  2. Valeur Pratique : la simplicité et l'efficacité offrent de bonnes perspectives d'application
  3. Reproductibilité : code open-source fourni, facilitant la reproduction et l'extension

Scénarios d'Application

  1. Ensembles de Données de Taille Moyenne à Grande : performance optimale avec un nombre d'échantillons suffisant
  2. Quantification de l'Incertitude : tâches de régression nécessitant des intervalles de confiance fiables
  3. Applications en Temps Réel : scénarios avec exigences élevées d'efficacité informatique
  4. Problèmes de Distribution Asymétrique : problèmes de régression avec distributions conditionnelles asymétriques

Références

  1. Romano, Y., Patterson, E., and Candès, E. (2019). Conformalized quantile regression. NeurIPS.
  2. Sesia, M., and Romano, Y. (2021). Conformal prediction using conditional histograms. NeurIPS.
  3. Meinshausen, N. (2006). Quantile regression forests. JMLR.
  4. Sadinle, M., Lei, J., and Wasserman, L. (2019). Least ambiguous set-valued classifiers with bounded error levels. JASA.