This paper introduces Conformal Thresholded Intervals (CTI), a novel conformal regression method that aims to produce the smallest possible prediction set with guaranteed coverage. Unlike existing methods that rely on nested conformal frameworks and full conditional distribution estimation, CTI estimates the conditional probability density for a new response to fall into each interquantile interval using off-the-shelf multi-output quantile regression. By leveraging the inverse relationship between interval length and probability density, CTI constructs prediction sets by thresholding the estimated conditional interquantile intervals based on their length. The optimal threshold is determined using a calibration set to ensure marginal coverage, effectively balancing the trade-off between prediction set size and coverage. CTI's approach is computationally efficient and avoids the complexity of estimating the full conditional distribution. The method is theoretically grounded, with provable guarantees for marginal coverage and achieving the smallest prediction size given by Neyman-Pearson . Extensive experimental results demonstrate that CTI achieves superior performance compared to state-of-the-art conformal regression methods across various datasets, consistently producing smaller prediction sets while maintaining the desired coverage level. The proposed method offers a simple yet effective solution for reliable uncertainty quantification in regression tasks, making it an attractive choice for practitioners seeking accurate and efficient conformal prediction.
- ID Articolo: 2407.14495
- Titolo: Conformal Thresholded Intervals for Efficient Regression
- Autori: Rui Luo (City University of Hong Kong), Zhixin Zhou (Alpha Benito Research)
- Classificazione: cs.LG, stat.ML
- Data di Pubblicazione/Conferenza: AAAI 2025
- Link Articolo: https://arxiv.org/abs/2407.14495
- Link Codice: https://github.com/luo-lorry/CTI
Questo articolo propone gli Intervalli Sogliati Conformi (Conformal Thresholded Intervals, CTI), un nuovo metodo di regressione conforme volto a produrre insiemi di predizione il più piccoli possibile garantendo al contempo la copertura. A differenza dei metodi esistenti che si basano su framework conformi annidati e sulla stima completa della distribuzione condizionata, CTI utilizza la regressione quantilica multi-output pronta all'uso per stimare la densità di probabilità condizionata che la nuova risposta cada in ciascun intervallo inter-quantilico. Sfruttando la relazione inversa tra la lunghezza dell'intervallo e la densità di probabilità, CTI costruisce insiemi di predizione applicando una soglia agli intervalli inter-quantilici stimati in base alla loro lunghezza. Utilizzando un insieme di calibrazione per determinare la soglia ottimale al fine di garantire la copertura marginale, CTI bilancia efficacemente il compromesso tra la dimensione dell'insieme di predizione e la copertura.
La predizione conforme è un framework robusto per costruire insiemi di predizione con garanzie di copertura a campione finito. I metodi conformi di regressione esistenti si dividono principalmente in due categorie:
- Utilizzo diretto di modelli di regressione quantilica per predire gli estremi inferiore e superiore dell'intervallo
- Stima preliminare della distribuzione condizionata completa, seguita dall'inversione per ottenere insiemi di predizione
- Metodi di regressione quantilica: Producono tipicamente intervalli con code uguali, ma per distribuzioni condizionate asimmetriche, l'intervallo efficace più breve potrebbe essere sbilanciato
- Metodi di stima della densità: Possono adattarsi all'asimmetria, ma generalmente comportano numerosi parametri di sintonizzazione, sono difficili da interpretare e complessi per i praticanti
- I metodi esistenti potrebbero produrre insiemi di predizione subottimali quando la distribuzione condizionata è asimmetrica
- È necessario un metodo che si adatti alla densità locale dei dati ed sia computazionalmente efficiente
- Si desidera evitare la complessità della stima della distribuzione condizionata completa
- Proposizione del metodo CTI: Un nuovo metodo di predizione conforme per la regressione che sfrutta la regressione quantilica multi-output per stimare intervalli inter-quantilici, costruendo insiemi di predizione mediante sogliatura di questi intervalli
- Analisi teorica: Dimostrazione che CTI garantisce la copertura marginale e, in condizioni specifiche, può realizzare la copertura condizionata desiderata e la lunghezza minima attesa dell'insieme di predizione
- Verifica sperimentale: Ampi esperimenti numerici su dati simulati e reali che dimostrano come CTI produca insiemi di predizione più piccoli mantenendo una copertura efficace
- Praticità: Il metodo è semplice da implementare e interpretare, risultando attraente per i praticanti che cercano una quantificazione affidabile dell'incertezza
Dato un insieme di dati di regressione {(xi,yi)}i=1n, dove xi∈X⊆Rd, yi∈Y⊆R. L'obiettivo è costruire un predittore conforme che, per ogni input di test x, produca un insieme di predizione C(x)⊆Y soddisfacendo:
P(Y∈C(X))≥1−α
minimizzando al contempo la dimensione attesa dell'insieme di predizione.
L'intuizione chiave di CTI è sfruttare la relazione inversa tra la lunghezza dell'intervallo e la densità di probabilità. Per una densità di probabilità condizionata f(y∣x), se la regressione quantilica è sufficientemente accurata, allora:
f(y∣x)≈K⋅μ(Ik(x))1
dove μ(Ik(x)) è la lunghezza dell'intervallo Ik(x).
Fase 1: Regressione Quantilica Multi-Output
Applicare la regressione quantilica sull'insieme di addestramento per predire il quantile τ della distribuzione condizionata Y∣X=x:
q^k(x) per k=0,1,…,K
dove τ=k/K.
Fase 2: Definizione degli Intervalli Inter-QuantiliciIk(x)=(q^k−1(x),q^k(x)] per k=1,…,K
Fase 3: Costruzione dell'Insieme di Predizione
Sogliatura basata sulla lunghezza dell'intervallo:
C(x)=⋃{Ik(x):μ(Ik(x))≤t,k=1,…,K}
Fase 4: Determinazione della Soglia
Utilizzo dell'insieme di calibrazione per determinare la soglia t:
t=(1−α)-esimo quantile di 1+∣Ical∣1∑i∈Icalδμ(Ik(yi)(xi))+δ∞
- Strategia di Sogliatura Diretta: A differenza di CHR che richiede la discretizzazione esplicita dello spazio di risposta, CTI addestra direttamente un modello di regressione quantilica multi-output
- Sogliatura Globale: CTI adotta una prospettiva globale per applicare la soglia agli intervalli inter-quantilici per tutti i valori di x, migliorando l'efficienza della copertura marginale
- Optimalità Teorica: Basato sul lemma di Neyman-Pearson, CTI è teoricamente prossimo all'insieme di predizione ottimale
Dati Simulati:
- Generazione di n=10000 campioni, Xi∼Uniform[0,1]
- Variabile di risposta: y∼Triangular(0,x,x)
- Densità condizionata: f(y∣x)=x22y1{y∈(0,x)}
Insiemi di Dati Reali (13 totali):
bike, bio, blog, community, concrete, facebook1, facebook2, homes, meps19, meps20, meps21, star, etc.
- Copertura (Coverage): Proporzione di insiemi di predizione che contengono il valore reale
- Dimensione dell'Insieme di Predizione (Size): Lunghezza media/misura dell'insieme di predizione
- Split Conformal: Metodo conforme di divisione di base
- CQR (Conformal Quantile Regression): Regressione quantilica conforme
- CHR (Conformal Histogram Regression): Regressione istogramma conforme
- Divisione dei dati: 20% test, dei dati rimanenti 70% addestramento, 30% calibrazione
- Numero di quantili: K=100
- Modello di base: Random Forest (RF) e Reti Neurali (NN)
- Esecuzioni indipendenti: 10 ripetizioni
- Livello di significatività: α=0.1 (copertura al 90%)
Risultati su Dati Simulati:
- Dimensione attesa teorica dell'insieme CTI: 0.317
- Dimensione attesa teorica dell'insieme CHR: 0.342
- Dimensione attesa teorica dell'insieme CQR: 0.376
- Prestazioni effettive di CTI: CTI(RF) 0.345±0.005, CTI(NN) 0.369±0.015
- Tutti i metodi hanno raggiunto una copertura di circa il 90%
Risultati su Insiemi di Dati Reali:
Su 13 insiemi di dati, CTI ha prodotto insiemi di predizione più piccoli rispetto ad altri metodi in 11 di essi, mantenendo al contempo il livello di copertura desiderato.
- Vantaggio Coerente: CTI supera i metodi di base sulla maggior parte degli insiemi di dati
- Dipendenza dal Modello: L'efficienza di CTI dipende dalla qualità del modello di regressione quantilica sottostante
- Sfida su Piccoli Insiemi di Dati: Su insiemi di dati con campioni ridotti (come star, n=2161), CQR potrebbe funzionare meglio
Analisi della Lunghezza dell'Intervallo:
Confrontando la distribuzione della lunghezza dell'intervallo di risposta con quella di tutti gli intervalli, si scopre che le prestazioni di CTI dipendono dall'insieme di dati specifico e dal modello di regressione quantilica sottostante. Teoricamente, la differenza media tra le due distribuzioni dovrebbe essere zero, ma in pratica esiste una deviazione, evidenziando la dipendenza del metodo dai dati e dal modello.
- Metodi Tradizionali: Hunter & Lange (2000), Meinshausen (2006), etc.
- Stima Multi-Quantile: Cho et al. (2017) propongono che la stima simultanea di più quantili sia più efficace della stima individuale
- Vincoli di Non-Incrocio: Moon et al. (2021), Brando et al. (2022), etc. affrontano il problema dell'incrocio dei quantili
- Predizione Conforme Annidata: Romano et al. (2019), Sesia & Candès (2020), etc.
- Metodi di Stima della Densità: Izbicki et al. (2020), Sesia & Romano (2021), etc.
- Innovazione di questo Articolo: Stima diretta della densità di probabilità condizionata piuttosto che della distribuzione condizionata completa
- CTI fornisce un metodo di regressione conforme semplice ed efficace
- Mediante la sogliatura degli intervalli inter-quantilici, CTI produce insiemi di predizione più piccoli rispetto ai metodi esistenti
- Il metodo è supportato teoricamente dal lemma di Neyman-Pearson, garantendo l'optimalità
- La verifica sperimentale ha confermato l'efficacia del metodo su molteplici insiemi di dati
- Restrizione agli Intervalli: L'implementazione attuale non garantisce che l'insieme di predizione sia sempre di forma intervallare
- Dipendenza dal Modello: Le prestazioni dipendono fortemente dall'accuratezza del modello di regressione quantilica sottostante
- Sfida su Piccoli Campioni: Su insiemi di dati ridotti potrebbe non funzionare meglio dei metodi tradizionali
- Scelta dei Parametri: La scelta del numero di quantili K richiede un equilibrio tra capacità espressiva ed efficienza computazionale
- Sviluppo di varianti di CTI che producono insiemi di predizione di forma intervallare
- Miglioramento delle prestazioni nel caso di piccoli campioni
- Ricerca di metodi per selezionare adattivamente il numero di quantili K
- Integrazione con altri metodi di quantificazione dell'incertezza
- Fondamenti Teorici Solidi: Garanzie di optimalità teorica basate sul lemma di Neyman-Pearson
- Semplicità del Metodo: Evita la complessità della stima della distribuzione condizionata completa
- Sperimentazione Completa: Verifica estesa su dati simulati e reali
- Alto Valore Pratico: Facile da implementare e interpretare, adatto ai praticanti
- Forte Innovatività: Applicazione riuscita dell'idea di sogliatura dalla classificazione ai problemi di regressione
- Ambito di Applicabilità: Le prestazioni potrebbero essere scadenti su insiemi di dati con campioni ridotti
- Forma dell'Insieme di Predizione: Non può garantire che l'insieme di predizione sia di forma intervallare, potendo produrre insiemi di predizione discontinui
- Sensibilità ai Iperparametri: Relativamente sensibile alla scelta del numero di quantili K
- Analisi Teorica: Alcuni risultati teorici si basano su ipotesi piuttosto forti
- Contributo Accademico: Fornisce nuove prospettive e metodi al campo della predizione conforme
- Valore Pratico: Le caratteristiche di semplicità ed efficienza promettono buone prospettive di applicazione
- Riproducibilità: La disponibilità di codice open-source facilita la riproduzione e l'estensione
- Insiemi di Dati Medio-Grandi: Le prestazioni sono ottimali quando il volume di campioni è sufficiente
- Quantificazione dell'Incertezza: Compiti di regressione che richiedono intervalli di confidenza affidabili
- Applicazioni in Tempo Reale: Scenari con elevati requisiti di efficienza computazionale
- Problemi di Regressione con Distribuzioni Asimmetriche: Problemi di regressione in cui la distribuzione condizionata presenta asimmetria
- Romano, Y., Patterson, E., and Candès, E. (2019). Conformalized quantile regression. NeurIPS.
- Sesia, M., and Romano, Y. (2021). Conformal prediction using conditional histograms. NeurIPS.
- Meinshausen, N. (2006). Quantile regression forests. JMLR.
- Sadinle, M., Lei, J., and Wasserman, L. (2019). Least ambiguous set-valued classifiers with bounded error levels. JASA.