This paper introduces Conformal Thresholded Intervals (CTI), a novel conformal regression method that aims to produce the smallest possible prediction set with guaranteed coverage. Unlike existing methods that rely on nested conformal frameworks and full conditional distribution estimation, CTI estimates the conditional probability density for a new response to fall into each interquantile interval using off-the-shelf multi-output quantile regression. By leveraging the inverse relationship between interval length and probability density, CTI constructs prediction sets by thresholding the estimated conditional interquantile intervals based on their length. The optimal threshold is determined using a calibration set to ensure marginal coverage, effectively balancing the trade-off between prediction set size and coverage. CTI's approach is computationally efficient and avoids the complexity of estimating the full conditional distribution. The method is theoretically grounded, with provable guarantees for marginal coverage and achieving the smallest prediction size given by Neyman-Pearson . Extensive experimental results demonstrate that CTI achieves superior performance compared to state-of-the-art conformal regression methods across various datasets, consistently producing smaller prediction sets while maintaining the desired coverage level. The proposed method offers a simple yet effective solution for reliable uncertainty quantification in regression tasks, making it an attractive choice for practitioners seeking accurate and efficient conformal prediction.
- ID del Artículo: 2407.14495
- Título: Conformal Thresholded Intervals for Efficient Regression
- Autores: Rui Luo (City University of Hong Kong), Zhixin Zhou (Alpha Benito Research)
- Clasificación: cs.LG, stat.ML
- Fecha de Publicación/Conferencia: AAAI 2025
- Enlace del Artículo: https://arxiv.org/abs/2407.14495
- Enlace del Código: https://github.com/luo-lorry/CTI
Este artículo propone Intervalos Conformales Umbralados (Conformal Thresholded Intervals, CTI), un método novedoso de regresión conformal diseñado para producir conjuntos de predicción lo más pequeños posible mientras se garantiza la cobertura. A diferencia de los métodos existentes que dependen del marco conformal anidado y la estimación completa de la distribución condicional, CTI utiliza regresión de cuantiles multioutput lista para usar con el fin de estimar la densidad de probabilidad condicional de que la nueva respuesta caiga en cada intervalo intercuantílico. Al aprovechar la relación inversa entre la longitud del intervalo y la densidad de probabilidad, CTI construye conjuntos de predicción umbralando intervalos intercuantílicos estimados basándose en su longitud. Se utiliza un conjunto de calibración para determinar el umbral óptimo que asegure cobertura marginal, equilibrando efectivamente el compromiso entre el tamaño del conjunto de predicción y la cobertura.
La predicción conformal es un marco robusto para construir conjuntos de predicción con garantías de cobertura en muestras finitas. Los métodos conformales de regresión existentes se dividen principalmente en dos categorías:
- Uso directo de modelos de regresión de cuantiles para predecir los puntos finales inferior y superior del intervalo
- Estimación primero de la distribución condicional completa, seguida de inversión para obtener conjuntos de predicción
- Métodos de regresión de cuantiles: Típicamente producen intervalos de cola igual, pero para distribuciones condicionales sesgadas, el intervalo efectivo más corto puede ser desequilibrado
- Métodos de estimación de densidad: Pueden adaptarse al sesgo, pero generalmente implican muchos parámetros de ajuste, son difíciles de interpretar y complejos para los profesionales
- Los métodos existentes pueden producir conjuntos de predicción subóptimos cuando la distribución condicional es sesgada
- Se necesita un método que se adapte a la densidad local de los datos y sea computacionalmente eficiente
- Se desea evitar la complejidad de estimar la distribución condicional completa
- Propuesta del Método CTI: Un nuevo método de predicción conformal para regresión que utiliza regresión de cuantiles multioutput para estimar intervalos intercuantílicos condicionales, construyendo conjuntos de predicción mediante umbralización de estos intervalos
- Análisis Teórico: Demostración de que CTI garantiza cobertura marginal y puede lograr cobertura condicional deseada y longitud mínima esperada del intervalo de predicción bajo condiciones específicas
- Verificación Experimental: Extensos experimentos numéricos en datos simulados y conjuntos de datos reales que demuestran que CTI produce conjuntos de predicción más pequeños mientras mantiene cobertura efectiva
- Practicidad: El método es simple de implementar e interpretar, atractivo para profesionales que buscan cuantificación confiable de la incertidumbre
Dado un conjunto de datos de regresión {(xi,yi)}i=1n, donde xi∈X⊆Rd, yi∈Y⊆R. El objetivo es construir un predictor conformal que para cada entrada de prueba x produzca un conjunto de predicción C(x)⊆Y, satisfaciendo:
P(Y∈C(X))≥1−α
mientras se minimiza el tamaño esperado del conjunto de predicción.
La idea clave de CTI es aprovechar la relación inversa entre la longitud del intervalo y la densidad de probabilidad. Para la densidad de probabilidad condicional f(y∣x), si la regresión de cuantiles es suficientemente precisa, entonces:
f(y∣x)≈K⋅μ(Ik(x))1
donde μ(Ik(x)) es la longitud del intervalo Ik(x).
Paso 1: Regresión de Cuantiles Multioutput
Aplicar regresión de cuantiles en el conjunto de entrenamiento para predecir el cuantil τ de la distribución condicional Y∣X=x:
q^k(x) para k=0,1,…,K
donde τ=k/K.
Paso 2: Definición de Intervalos IntercuantílicosIk(x)=(q^k−1(x),q^k(x)] para k=1,…,K
Paso 3: Construcción del Conjunto de Predicción
Umbralización basada en la longitud del intervalo:
C(x)=⋃{Ik(x):μ(Ik(x))≤t,k=1,…,K}
Paso 4: Determinación del Umbral
Utilizar el conjunto de calibración para determinar el umbral t:
t=cuantil(1−α) de 1+∣Ical∣1∑i∈Icalδμ(Ik(yi)(xi))+δ∞
- Estrategia de Umbralización Directa: A diferencia de CHR que requiere binning explícito del espacio de respuesta, CTI entrena directamente un modelo de regresión de cuantiles multioutput
- Umbralización Global: CTI adopta una perspectiva global para umbralizar intervalos intercuantílicos para todos los valores de x, mejorando la eficiencia de la cobertura marginal
- Optimalidad Teórica: Basado en el lema de Neyman-Pearson, CTI se aproxima teóricamente a conjuntos de predicción óptimos
Datos Simulados:
- Generación de n=10000 muestras, Xi∼Uniforme[0,1]
- Variable de respuesta: y∼Triangular(0,x,x)
- Densidad condicional: f(y∣x)=x22y1{y∈(0,x)}
Conjuntos de Datos Reales (13 conjuntos):
bike, bio, blog, community, concrete, facebook1, facebook2, homes, meps19, meps20, meps21, star, etc.
- Cobertura (Coverage): Proporción de conjuntos de predicción que contienen el valor real
- Tamaño del Conjunto de Predicción (Size): Longitud/medida promedio del conjunto de predicción
- Split Conformal: Método conformal de división básico
- CQR (Conformal Quantile Regression): Regresión de cuantiles conformal
- CHR (Conformal Histogram Regression): Regresión de histograma conformal
- División de datos: 20% prueba, 70% entrenamiento y 30% calibración del resto
- Número de cuantiles: K=100
- Modelo base: Bosque Aleatorio (RF) y Red Neuronal (NN)
- Ejecuciones independientes: 10 repeticiones
- Nivel de significancia: α=0.1 (cobertura del 90%)
Resultados en Datos Simulados:
- Tamaño esperado teórico del conjunto CTI: 0.317
- Tamaño esperado teórico del conjunto CHR: 0.342
- Tamaño esperado teórico del conjunto CQR: 0.376
- Desempeño real de CTI: CTI(RF) 0.345±0.005, CTI(NN) 0.369±0.015
- Todos los métodos alcanzaron aproximadamente 90% de cobertura
Resultados en Conjuntos de Datos Reales:
En 11 de los 13 conjuntos de datos, CTI produjo conjuntos de predicción más pequeños que otros métodos, manteniendo simultáneamente el nivel de cobertura deseado.
- Ventaja Consistente: CTI supera a los métodos de referencia en la mayoría de los conjuntos de datos
- Dependencia del Modelo: La eficiencia de CTI depende de la calidad del modelo de regresión de cuantiles subyacente
- Desafío en Conjuntos Pequeños: En conjuntos de datos con tamaño de muestra pequeño (como star, n=2161), CQR puede tener mejor desempeño
Análisis de Longitud de Intervalo:
Mediante la comparación de la distribución de longitudes de intervalos de respuesta con la distribución de todas las longitudes de intervalo, se descubre que el desempeño de CTI depende del conjunto de datos específico y del modelo de regresión de cuantiles subyacente. Teóricamente, la diferencia de medias entre las dos distribuciones debería ser cero, pero existe desviación en la práctica, destacando la dependencia del método respecto a los datos y el modelo.
- Métodos Tradicionales: Hunter & Lange (2000), Meinshausen (2006), etc.
- Estimación de Múltiples Cuantiles: Cho et al. (2017) proponen que estimar múltiples cuantiles simultáneamente es más efectivo que estimarlos individualmente
- Restricciones de No Cruzamiento: Moon et al. (2021), Brando et al. (2022), etc. abordan el problema del cruzamiento de cuantiles
- Predicción Conformal Anidada: Romano et al. (2019), Sesia & Candès (2020), etc.
- Métodos de Estimación de Densidad: Izbicki et al. (2020), Sesia & Romano (2021), etc.
- Innovación de Este Trabajo: Estimación directa de la densidad de probabilidad condicional en lugar de la distribución condicional completa
- CTI proporciona un método de regresión conformal simple y efectivo
- Mediante la umbralización de intervalos intercuantílicos, CTI puede producir conjuntos de predicción más pequeños que los métodos existentes
- El método está respaldado teóricamente por el lema de Neyman-Pearson, garantizando optimalidad
- La verificación experimental demuestra la efectividad del método en múltiples conjuntos de datos
- Restricción de Intervalo: La implementación actual no garantiza que los conjuntos de predicción siempre tengan forma de intervalo
- Dependencia del Modelo: El desempeño depende altamente de la precisión del modelo de regresión de cuantiles subyacente
- Desafío en Muestras Pequeñas: Puede no ser tan efectivo como métodos tradicionales en conjuntos de datos pequeños
- Selección de Parámetros: La elección del número de cuantiles K requiere equilibrar capacidad expresiva y eficiencia computacional
- Desarrollar variantes de CTI que produzcan conjuntos de predicción en forma de intervalo
- Mejorar el desempeño en situaciones de muestras pequeñas
- Investigar métodos para seleccionar adaptativamente el número de cuantiles K
- Integración con otros métodos de cuantificación de incertidumbre
- Fundamento Teórico Sólido: Garantía de optimalidad teórica basada en el lema de Neyman-Pearson
- Método Conciso: Evita la complejidad de la estimación de distribución condicional completa
- Experimentación Exhaustiva: Verificación amplia en datos simulados y conjuntos de datos reales
- Alto Valor Práctico: Fácil de implementar e interpretar, adecuado para profesionales
- Innovación Fuerte: Aplicación exitosa de ideas de umbralización de clasificación a problemas de regresión
- Rango de Aplicabilidad: El desempeño puede ser deficiente en conjuntos de datos con muestras pequeñas
- Forma del Conjunto de Predicción: No puede garantizar que los conjuntos de predicción tengan forma de intervalo, pudiendo producir conjuntos de predicción discontinuos
- Sensibilidad a Hiperparámetros: Relativamente sensible a la elección del número de cuantiles K
- Análisis Teórico: Algunos resultados teóricos se basan en condiciones de supuestos relativamente fuertes
- Contribución Académica: Proporciona nuevas perspectivas y métodos para el campo de predicción conformal
- Valor Práctico: Las características simples y eficientes sugieren buenas perspectivas de aplicación
- Reproducibilidad: Proporciona código de código abierto, facilitando la reproducción y extensión
- Conjuntos de Datos Medianos a Grandes: El efecto es óptimo cuando hay suficientes muestras
- Cuantificación de Incertidumbre: Tareas de regresión que requieren intervalos de confianza confiables
- Aplicaciones en Tiempo Real: Escenarios con altos requisitos de eficiencia computacional
- Problemas con Distribuciones Sesgadas: Problemas de regresión donde la distribución condicional es sesgada
- Romano, Y., Patterson, E., and Candès, E. (2019). Conformalized quantile regression. NeurIPS.
- Sesia, M., and Romano, Y. (2021). Conformal prediction using conditional histograms. NeurIPS.
- Meinshausen, N. (2006). Quantile regression forests. JMLR.
- Sadinle, M., Lei, J., and Wasserman, L. (2019). Least ambiguous set-valued classifiers with bounded error levels. JASA.