Deep ensembles (DE) have emerged as a powerful approach for quantifying predictive uncertainty and distinguishing its aleatoric and epistemic components, thereby enhancing model robustness and reliability. However, their high computational and memory costs during inference pose significant challenges for wide practical deployment. To overcome this issue, we propose credal ensemble distillation (CED), a novel framework that compresses a DE into a single model, CREDIT, for classification tasks. Instead of a single softmax probability distribution, CREDIT predicts class-wise probability intervals that define a credal set, a convex set of probability distributions, for uncertainty quantification. Empirical results on out-of-distribution detection benchmarks demonstrate that CED achieves superior or comparable uncertainty estimation compared to several existing baselines, while substantially reducing inference overhead compared to DE.
- ID del Artículo: 2511.13766
- Título: Credal Ensemble Distillation for Uncertainty Quantification
- Autores: Kaizheng Wang (KU Leuven), Fabio Cuzzolin (Oxford Brookes University), David Moens (KU Leuven), Hans Hallez (KU Leuven)
- Clasificación: cs.LG, cs.AI
- Fecha de Publicación/Conferencia: AAAI 2026
- Enlace del Artículo: https://arxiv.org/abs/2511.13766
Los Conjuntos Profundos (Deep Ensembles, DE) se han convertido en un método poderoso para cuantificar la incertidumbre en predicciones y distinguir entre incertidumbre aleatoria (aleatoric uncertainty) e incertidumbre epistémica (epistemic uncertainty), mejorando así la robustez y confiabilidad del modelo. Sin embargo, sus altos costos computacionales y de memoria durante la inferencia presentan desafíos significativos para el despliegue práctico generalizado. Para superar este problema, este artículo propone el marco de Destilación de Conjunto Creíble (Credal Ensemble Distillation, CED), que comprime DE en un único modelo CREDIT para tareas de clasificación. En lugar de predecir una única distribución de probabilidad softmax, CREDIT predice intervalos de probabilidad de clase que definen un conjunto creíble (credal set, un conjunto convexo de distribuciones de probabilidad) para la cuantificación de incertidumbre. Los resultados experimentales en puntos de referencia de detección fuera de distribución demuestran que CED logra un rendimiento de estimación de incertidumbre superior o comparable al DE mientras reduce significativamente la sobrecarga de inferencia en relación con DE.
- Importancia de la Cuantificación de Incertidumbre: La cuantificación de incertidumbre (UQ) en redes neuronales ha recibido creciente atención, distinguiendo principalmente dos tipos de incertidumbre:
- Incertidumbre Aleatoria (AU): Originada en la aleatoriedad inherente del proceso de generación de datos
- Incertidumbre Epistémica (EU): Causada por evidencia insuficiente, reflejando el conocimiento impreciso del modelo sobre la verdadera distribución de condiciones
- Limitaciones de los Conjuntos Profundos:
- DE combina múltiples redes neuronales estándar (SNN) para predecir un conjunto finito de distribuciones, convirtiéndose en una línea base sólida de UQ
- Sin embargo, DE requiere grandes cantidades de memoria y recursos computacionales, necesitando ejecutar M modelos independientes durante la inferencia
- Esto limita su despliegue práctico en escenarios con recursos limitados
- Insuficiencias de Métodos de Destilación Existentes:
- Destilación de Conjunto (ED): Destila DE en un único SNN, pero solo genera una única distribución de predicción, limitando la capacidad de cuantificación de AU
- Destilación de Distribución de Conjunto (EDD): Produce una distribución de Dirichlet como predicción de segundo orden, pero carece de etiquetas verdaderas de Dirichlet para entrenamiento y se desvía teóricamente de la definición de EU
- Redes Neuronales Bayesianas (BNN): Enfrentan desafíos de escalabilidad y sensibilidad a la selección de priores
Este artículo plantea la pregunta central de investigación: ¿Podemos destilar de DE un único modelo de red neuronal que prediga un conjunto creíble como representación de segundo orden, mejorando el rendimiento de UQ del marco de destilación existente?
- Propuesta del Marco CED: Propone por primera vez un marco novedoso para destilar DE en un único modelo que predice conjuntos creíbles, una tarea previamente inexplorada
- Diseño del Modelo CREDIT:
- Produce un vector de dimensión 2C+1 (donde C es el número de clases), incluyendo probabilidad de intersección (p*), vector de longitud de intervalo (Δp) y factor de ponderación (β)
- Puede reconstruir sistemáticamente intervalos de probabilidad de clase, definiendo conjuntos creíbles para UQ
- Función de Pérdida de Destilación Innovadora: Propone una función de pérdida de destilación especializada que combina entropía cruzada y error cuadrático medio, aprendiendo efectivamente la información creíble del maestro DE
- Rendimiento Experimental Superior:
- La estimación de EU supera significativamente los métodos de línea base en múltiples puntos de referencia de detección OOD
- La estimación de TU logra un rendimiento superior o comparable
- Reduce significativamente la sobrecarga de inferencia en comparación con DE (de 5× modelo único a 1×)
- Contribución Teórica: Utiliza la teoría de conjuntos creíbles para proporcionar un marco matemático más principista para la cuantificación de incertidumbre
- Entrada: Muestra de entrada x para tarea de clasificación
- Salida:
- Predicción de clase: a través de probabilidad de intersección p*
- Cuantificación de incertidumbre: a través del conjunto creíble reconstruido Q
- Objetivo: Comprimir el maestro DE compuesto por M SNN en un único modelo estudiante CREDIT, manteniendo o mejorando el rendimiento de UQ
Dado M predicciones de probabilidad {pm}^M_ de DE, construir intervalos de probabilidad de clase:
pk=maxm=1,..,Mpm,k,pk=minm=1,..,Mpm,k
Estos intervalos definen un conjunto creíble válido:
Q={p∣pk∈[pk,pk]∀k}
Satisfaciendo la restricción: ∑k=1Cpk≤1≤∑k=1Cpk
Cálculo de Probabilidad de Intersección (para predicción de clase única):
pk∗=pk+β(pk−pk)
donde el factor de ponderación:
β=(1−∑k=1Cpk)/(∑k=1CΔpk)
aquí Δpk=pk−pk es la longitud del intervalo.
Modificaciones de Arquitectura:
- Compatible con cualquier red neuronal troncal
- Modifica la capa de clasificación final de C neuronas de salida a 2C+1 nodos
- Vector de salida v := (p*_S ∈ R^C, Δp_S ∈ R^C, β_S ∈ R)
Cálculo de Salida (dados los logits z_S ∈ R^{2C+1}):
pS∗=softmax(zS1:C)ΔpS=sigmoid(zSC+1:2C)βS=sigmoid(zS2C+1)
Esto asegura:
- p*_S normalizado
- Cada longitud de intervalo Δp_{S,k} ∈ 0,1
- β_S ∈ 0,1
Reconstrucción de Intervalos:
pS,k=pS,k∗−βSΔpS,kpS,k=pS,k∗+(1−βS)ΔpS,k
Garantía de Validez: A través de operaciones de recorte se asegura que los intervalos de probabilidad sean válidos:
pS,k←max{pS,k,0},pS,k←min{pS,k,1}
Adopta medidas de entropía generalizada:
- Incertidumbre Total (TU): Entropía de Shannon superior H(QS)
- Incertidumbre Aleatoria (AU): Entropía de Shannon inferior H(QS)
- Incertidumbre Epistémica (EU): H(QS)−H(QS)
El cálculo de entropía superior a través de problema de optimización:
H(QS)=maxp∈QS∑k=1C−pklogpk
Sujeto a restricciones ∑k=1Cpk=1 y pk∈[pS,k,pS,k]
Función de Pérdida CED:
Lced=N−1∑n=1N(∑k=1C−pk∗nlogpS,k∗n+∑k=1C(Δpkn−ΔpS,kn)2+(βn−βSn)2)
Tres Componentes:
- Término de Entropía Cruzada: Aprende probabilidad de intersección, manteniendo rendimiento de predicción
- MSE de Longitud de Intervalo: Aprende la imprecisión de los intervalos de probabilidad
- MSE de Factor de Ponderación: Aprende el factor de ponderación
Escalado de Temperatura: Aplica temperatura T=2.5 para destilación de conocimiento mejorada, multiplicando la función de pérdida por T²
- Primera Destilación de Conjunto Creíble: Combina teoría de conjuntos creíbles con destilación de conocimiento, resolviendo innovadoramente el problema de preservación de incertidumbre de conjunto a modelo único
- Representación Compacta: Representa conjuntos creíbles de manera compacta mediante triplete (p*, Δp, β), evitando almacenar directamente todos los puntos finales de intervalos
- Garantías Teóricas: Prueba matemáticamente que los intervalos de probabilidad reconstruidos satisfacen las condiciones de validez del conjunto creíble
- Entrenamiento Extremo a Extremo: No requiere programación de tasa de aprendizaje compleja o recocido de temperatura (en comparación con EDD)
- Eficiencia Computacional: Solo requiere un pase hacia adelante durante la inferencia, la sobrecarga de optimización para cuantificación de incertidumbre (cuando C≤10) es despreciable
Experimentos Principales:
- CIFAR10 vs. SVHN: Par estándar de detección OOD
- CIFAR10 vs. CIFAR10-C:
- CIFAR10-C contiene 15 tipos de corrupción
- 5 niveles de severidad para cada corrupción
- Total de 75 variantes de corrupción
Estudio de Caso de Imagen Médica:
- Camelyon17: Imágenes de ganglios linfáticos de mama en patología de tejidos
- Tarea de clasificación binaria: {Tumor, No-Tumor}
- Configuración de cambio de dominio fuerte: ID y OOD utilizan diferentes escáneres
Rendimiento de Detección OOD (considerando detección OOD como clasificación binaria):
- AUROC (Área bajo la Curva de Características Operativas del Receptor): Evalúa tasa de verdaderos positivos y tasa de falsos positivos
- AUPRC (Área bajo la Curva de Precisión-Recuperación): Evalúa rendimiento en diferentes niveles de confianza
- Valores más altos indican mejor rendimiento de UQ
Rendimiento de ID:
- Precisión de Prueba (ACC)
- Error de Calibración Esperado (ECE): Evalúa la alineación entre confianza del modelo y probabilidad verdadera
Evaluación de Imagen Médica:
- Curva de Precisión-Rechazo (AR): Variación de precisión con tasa de rechazo en clasificación selectiva
- AUARC (Área bajo Curva AR): Valor más alto indica mejor calibración de incertidumbre
- DE: Conjunto profundo de 5 SNN (M=5)
- SNN: Red neuronal estándar única
- ED: Destilación de conjunto estándar
- EDD*: Destilación de distribución de conjunto con configuración de artículo original (tasa de aprendizaje cíclica, T=10, recocido de temperatura)
- EDD: Destilación de distribución de conjunto usando la misma configuración de entrenamiento que CED (comparación justa)
- MCDO: Dropout de Monte Carlo (10 pases hacia adelante)
Experimentos Principales (VGG16/ResNet18):
- Entrenar 15 SNN desde cero (diferentes inicializaciones aleatorias)
- Construir 15 DE (cada uno selecciona aleatoriamente 5 SNN, sin combinaciones repetidas)
- Destilar 15 modelos estudiantes de 15 DE respectivamente
- Optimizador: Adam, tasa de aprendizaje inicial 0.001
- Programación de Tasa de Aprendizaje: Reducir a 0.0001 en época 80
- Épocas de Entrenamiento: 100 épocas
- Tamaño de Lote: 128
- Escalado de Temperatura: T=2.5 (para ED, EDD, CED)
- Aumento de Datos: Estrategia de aumento estándar
Experimentos de Modelo Preentrenado (ResNet50):
- Usar ResNet50 preentrenado en ImageNet
- Tamaño de entrada ajustado a (224, 224, 3)
- Entrenar 25 épocas
- Otras configuraciones consistentes con experimentos principales
Configuración EDD*:
- Estrategia de tasa de aprendizaje cíclica (longitud de ciclo 60/15)
- Escalado de temperatura T=10
- Recocido de temperatura
CIFAR10 vs. SVHN:
| Método | EU AUROC | EU AUPRC | TU AUROC | TU AUPRC |
|---|
| DE | 89.99±0.79 | 93.78±0.67 | 91.53±0.72 | 95.09±0.49 |
| CED | 93.56±2.17 | 96.09±1.72 | 92.51±1.96 | 95.21±1.52 |
| ED | / | / | 91.07±1.27 | 94.51±0.89 |
| EDD* | 90.94±2.41 | 93.66±1.72 | 90.96±2.66 | 93.78±2.11 |
| MCDO | 51.42±0.46 | 74.72±0.42 | 89.12±1.63 | 93.64±1.17 |
CIFAR10 vs. CIFAR10-C (promedio de 15 tipos de corrupción × 5 niveles de severidad):
| Método | EU AUROC | EU AUPRC | TU AUROC | TU AUPRC |
|---|
| DE | 93.18±1.99 | 89.41±4.07 | 96.51±1.70 | 95.42±2.07 |
| CED | 96.51±1.81 | 95.09±2.36 | 95.56±1.75 | 93.58±2.44 |
| ED | / | / | 94.71±2.20 | 92.72±2.94 |
| EDD* | 93.83±1.88 | 87.91±4.32 | 95.45±2.10 | 92.11±3.65 |
Rendimiento de ID (Conjunto de Prueba CIFAR10):
| Método | Precisión de Prueba | ECE |
|---|
| DE | 93.52±0.07 | 1.46±0.13 |
| CED | 92.23±0.17 | 6.71±0.18 |
| ED | 92.18±0.16 | 6.85±0.16 |
| EDD* | 91.13±0.18 | 3.84±0.25 |
CIFAR10 vs. SVHN:
- CED EU AUROC: 96.69±1.14 (vs. DE: 89.50±1.05)
- CED EU AUPRC: 98.44±0.64 (vs. DE: 92.22±1.19)
CIFAR10 vs. CIFAR10-C:
- CED EU AUROC: 96.80±2.81 (vs. DE: 87.78±2.28)
- CED EU AUPRC: 96.09±4.14 (vs. DE: 78.92±3.67)
- Mejora Significativa en Estimación de EU: La estimación de EU de CED es consistentemente superior a todos los métodos de línea base en todas las configuraciones experimentales, con mejoras significativas en AUROC y AUPRC
- Rendimiento de TU Comparable: La estimación de TU de CED logra un rendimiento superior o comparable, clasificándose en los dos primeros en la mayoría de casos
- EU Superior a TU: Comparando puntuaciones de detección OOD usando EU y TU, la estimación de EU de CED produce el mejor rendimiento en la mayoría de casos, destacando la importancia de mejorar la cuantificación de EU
- Precisión de Predicción Mantenida: La destilación mejora la precisión de SNN individual, CED logra rendimiento comparable con métodos de destilación de línea base
- Fallo de MCDO: En esta configuración, la estimación de EU de MCDO se vuelve poco confiable (AUROC aproximadamente 50%), posiblemente debido a diversidad limitada del modelo
- Dificultad de Entrenamiento de EDD: Usando la misma configuración, la precisión de prueba de EDD se reduce significativamente (VGG16: 74.56%, ResNet50: 80.38%), por lo tanto se excluye su análisis de UQ
Prueba M ∈ {5, 15, 25, 30}, red troncal VGG16:
Observaciones:
- DE: Aumentar tamaño de conjunto mejora continuamente rendimiento de UQ
- CED y EDD*: No se observa tendencia clara
- CED mantiene rendimiento fuerte y consistente de detección OOD en varios tamaños de conjunto
- Destaca el alto potencial de CED, particularmente considerando la reducción significativa de complejidad de inferencia en comparación con DE grande
Prueba T ∈ {1, 2.5, 5, 10}, red troncal VGG16:
Resultados:
- El escalado de temperatura mejora rendimiento de UQ de CED
- Valores demasiado altos (T=10) reducen rendimiento
- T=2.5 produce consistentemente los mejores resultados, consistente con hallazgos de Hinton et al.
Patrones de resultados similares verificados en ResNet18 (Tabla 4 en Apéndice):
- CIFAR10 vs. SVHN: CED EU AUROC 88.73±2.53 (vs. DE 87.63±0.57)
- CIFAR10 vs. CIFAR10-C: CED EU AUROC 97.44±1.35 (vs. DE 92.43±1.91)
Gráficos de Densidad de Núcleo (CIFAR10 ID vs. SVHN OOD):
- CED muestra valores de EU y TU significativamente más altos para muestras OOD
- Buena separación de distribuciones de incertidumbre entre muestras ID y OOD
- Aunque EDD* muestra pico OOD más obvio, la distribución de incertidumbre de muestras ID se superpone más con OOD, explicando su menor rendimiento de detección OOD
Resultados de Curva AR (Figura 11, Tabla 6):
| Configuración | Estimación | AUARC de CED | AUARC de DE |
|---|
| ID | EU | 97.71±0.20 | 97.43±0.34 |
| ID | TU | 97.67±0.20 | 97.65±0.22 |
| OOD | EU | 97.12±0.22 | 95.92±0.44 |
| OOD | TU | 97.12±0.22 | 96.61±0.24 |
Conclusión: CED supera a DE en clasificación de imagen médica real, mientras requiere menos computación
Tiempo de Inferencia (Conjunto de Prueba CIFAR10, GPU P100 única):
- DE: 5×(2.22±0.20) = 11.1 segundos
- CED: 2.26±0.23 segundos
- EDD*: 2.22±0.20 segundos
Tiempo de Entrenamiento (por época, GPU P100 única):
- DE: 5×(130.07±0.24) = 650 segundos
- CED: 659.52±11.82 segundos
- EDD*: 684.54±5.05 segundos
Análisis:
- Eficiencia de inferencia de CED mejora aproximadamente 5 veces en comparación con DE
- Ligeramente aumentado en comparación con otros métodos de destilación (debido a nodos de salida adicionales)
- Entrenamiento de CED más simple que EDD* (sin necesidad de programación de tasa de aprendizaje compleja o recocido de temperatura)
Redes Neuronales Bayesianas (BNN):
- Aprenden distribuciones posteriores de pesos
- Desafíos: Escalabilidad en conjuntos de datos grandes y arquitecturas complejas
- Sensibles a selección de priores, verosimilitud y objetivos de entrenamiento
Conjuntos Profundos (DE):
- Combinan múltiples predicciones de SNN con conjunto finito de distribuciones
- Considerados línea base sólida de UQ
- Limitación: Altos requisitos de memoria y computación
Métodos de Dirichlet (DBM):
- Producen distribución de Dirichlet como predicción de segundo orden
- Crítica: Falta de etiquetas verdaderas, desviación de definición teórica de EU
Destilación de Conjunto (ED):
- Destila DE en SNN, aproximando media de distribución de predicción de DE
- Limitación: Solo genera distribución única, limitando cuantificación de AU
Destilación de Distribución de Conjunto (EDD):
- Destila en modelo que produce distribución de Dirichlet
- Desafío: Dificultad de entrenamiento, falta de etiquetas verdaderas
Aplicaciones Clásicas:
- Usados en aprendizaje automático más amplio para UQ
- Recientemente renovado interés en aprendizaje profundo
Avances Recientes:
- Modelar pesos de NN y salidas como conjuntos creíbles
- Derivar predicciones de conjunto creíble de intervalos de probabilidad de salida
- Envolver predicciones de BNN y DE como conjuntos creíbles
Limitación: Típicamente requieren mayores recursos computacionales
Explora por primera vez la tarea de destilación de conjunto creíble, combinando envoltorio creíble con destilación de conocimiento, diseñando un único modelo que puede aprender y retener información creíble de conjunto, mientras mejora rendimiento de UQ.
- Propuesta Exitosa del Marco CED: Comprime maestro DE en modelo CREDIT único, prediciendo intervalos de probabilidad de clase que definen conjuntos creíbles
- Rendimiento de UQ Superior:
- Estimación de EU significativamente superior a líneas base ED, EDD y DE
- Estimación de TU logra rendimiento superior o comparable
- Verificado en múltiples puntos de referencia de detección OOD y arquitecturas troncales
- Reducción Significativa de Sobrecarga de Inferencia: Reduce tiempo de inferencia aproximadamente 5 veces en comparación con DE
- Enfoque Principista: Proporciona marco matemático más principista para cuantificación de incertidumbre basado en teoría de conjuntos creíbles
- Valor Práctico: Demuestra efectividad en caso real de clasificación de imagen médica
- Desafíos de Escalabilidad:
- CED actual enfrenta desafíos cuando número de clases aumenta significativamente (como 100 o 1000)
- Softmax de maestro DE produce valores cercanos a cero para la mayoría de clases
- Puede desestabilizar componente de regresión de función de pérdida de destilación
- Rendimiento de Calibración:
- ECE de modelo único no es tan bueno como maestro DE
- Necesita integrar consideraciones de calibración en diseño de estrategia de destilación
- Limitación de Métrica ECE:
- ECE actual diseñado para predicción de probabilidad única
- Necesita extensión principista de ECE para predicciones de conjunto creíble
- Sobrecarga de Optimización:
- Aunque despreciable cuando C≤10, números de clase más grandes pueden aumentar costo computacional de cuantificación de incertidumbre
- Mejora de Escalabilidad:
- Resolver tareas de clasificación de clase grande (100+ clases)
- Mejorar estabilidad de manejo de valores de probabilidad pequeños
- Integración de Calibración:
- Incorporar consideraciones de calibración en estrategia de destilación
- Objetivo: Lograr rendimiento de calibración comparable o mejor que maestro DE
- Extensión Teórica:
- Desarrollar métrica ECE para predicciones de conjunto creíble
- Análisis teórico más profundo y garantías
- Expansión de Aplicaciones:
- Extender a tareas de regresión
- Explorar aplicaciones en otros dominios (como procesamiento de lenguaje natural)
- Innovación Fuerte:
- Primera combinación de teoría de conjuntos creíbles con destilación de conjunto
- Propone nuevo problema de investigación y solución completa
- Diseño de representación de triplete compacto ingenioso
- Fundamento Teórico Sólido:
- Proporciona garantías matemáticas basadas en teoría de conjuntos creíbles
- Prueba que intervalos reconstruidos satisfacen condiciones de validez
- Adopta medidas de entropía generalizada principistas
- Experimentación Completa:
- Múltiples pares de conjuntos de datos (CIFAR10 vs. SVHN/CIFAR10-C)
- Múltiples arquitecturas troncales (VGG16, ResNet18, ResNet50)
- 15 ejecuciones independientes aseguran significancia estadística
- Experimentos de ablación exhaustivos
- Estudio de caso de imagen médica real
- Resultados Convincentes:
- Estimación de EU consistentemente significativamente superior a todas las líneas base
- Mejora de eficiencia de inferencia aproximadamente 5 veces
- Rendimiento estable en diferentes configuraciones
- Escritura Clara:
- Descripción detallada de método
- Diseño de figuras intuitivo (particularmente figura 1 de marco)
- Expresión clara de fórmulas matemáticas
- Buena Reproducibilidad:
- Proporciona detalles detallados de implementación
- Apéndice contiene experimentos adicionales y configuraciones
- Código proporcionado
- Limitación de Escalabilidad:
- Autores reconocen desafíos con número grande de clases (100+)
- Manejo de valores de probabilidad pequeños por softmax puede ser inestable
- Limita aplicaciones en conjuntos de datos a gran escala como ImageNet
- Degradación de Rendimiento de Calibración:
- ECE de todos los modelos únicos inferior a maestro DE
- ECE de CED (6.71%) notablemente más alto que DE (1.46%)
- Aunque precisión de predicción comparable, calibración de confianza necesita mejora
- Discusión Incompleta de Sobrecarga de Optimización:
- Aunque afirma despreciable cuando C≤10
- Falta análisis detallado de tiempo de ejecución
- Falta análisis profundo de extensibilidad para valores C más grandes
- Comparación Potencialmente Injusta con EDD:
- EDD en configuración idéntica muestra rendimiento extremadamente pobre (precisión 74.56%)
- Principalmente compara con EDD* (configuración especial)
- Puede enmascarar algunos problemas del método en sí
- Análisis Teórico Limitado:
- Falta análisis de convergencia
- Fundamento teórico insuficiente para diseño de función de pérdida
- Falta explicación profunda de por qué simple suma ponderada de tres términos de pérdida es efectiva
- Línea Base MCDO Incompleta:
- Experimentos ResNet50 no reportan resultados de MCDO
- Análisis de por qué MCDO funciona mal es demasiado simple
- Contribución Académica:
- Abre nueva dirección de investigación de destilación de conjunto creíble
- Proporciona marco principista nuevo para cuantificación de incertidumbre
- Se espera estimule investigación posterior
- Valor Práctico:
- Reduce significativamente costo de inferencia (aceleración 5 veces)
- Demuestra valor en aplicaciones críticas como imagen médica
- Proporciona solución práctica para escenarios con recursos limitados
- Limitaciones:
- Aplicación a gran escala aún necesita mejora
- Problema de calibración necesita solución
- Despliegue práctico puede enfrentar desafíos
- Reproducibilidad:
- Proporciona código y configuración detallada
- Configuración experimental clara
- Fácil de reproducir y extender
Aplicaciones Recomendadas:
- Tareas de Clasificación de Escala Pequeña a Mediana (C≤10):
- Diagnóstico de imagen médica (como Camelyon17)
- Control de calidad y detección de anomalías
- Clasificación de escena en conducción autónoma
- Entornos con Recursos Limitados:
- Despliegue en dispositivos periféricos
- Requisitos de inferencia en tiempo real
- Sistemas con memoria limitada
- Escenarios que Requieren Estimación Confiable de Incertidumbre:
- Aplicaciones críticas para seguridad
- Asistencia de diagnóstico médico
- Evaluación de riesgo financiero
Aplicaciones No Recomendadas:
- Clasificación a gran escala (100+ clases)
- Escenarios con requisitos extremadamente altos de calibración
- Situaciones donde recursos computacionales son abundantes y sobrecarga de conjunto es aceptable
- Lakshminarayanan et al., 2017: Simple and scalable predictive uncertainty estimation using deep ensembles (Fundamento DE)
- Malinin et al., 2019: Ensemble Distribution Distillation (Método EDD)
- Hinton et al., 2015: Distilling the knowledge in a neural network (Fundamento de destilación de conocimiento)
- Hüllermeier & Waegeman, 2021: Aleatoric and epistemic uncertainty in machine learning (Teoría de incertidumbre)
- Wang et al., 2025a: Credal Wrapper of Model Averaging for Uncertainty Estimation (Método de envoltorio creíble)
- Cuzzolin, 2022: The intersection probability: betting with probability intervals (Teoría de probabilidad de intersección)
- De Campos et al., 1994: Probability intervals: A tool for uncertain reasoning (Teoría fundamental de conjuntos creíbles)
Evaluación General: Este es un artículo de investigación de alta calidad que propone un marco innovador de destilación de conjunto creíble, con contribuciones sólidas tanto en teoría como en experimentación. Aunque existen limitaciones en escalabilidad y calibración, proporciona una dirección valiosa nueva para el campo de cuantificación de incertidumbre. Particularmente adecuado para tareas de clasificación de escala pequeña a mediana y escenarios con recursos limitados, con buen valor práctico e impacto académico.