Knowledge distillation has emerged as a powerful technique for model compression, enabling the transfer of knowledge from large teacher networks to compact student models. However, traditional knowledge distillation methods treat all teacher predictions equally, regardless of the teacher's confidence in those predictions. This paper proposes an uncertainty-aware dual-student knowledge distillation framework that leverages teacher prediction uncertainty to selectively guide student learning. We introduce a peer-learning mechanism where two heterogeneous student architectures, specifically ResNet-18 and MobileNetV2, learn collaboratively from both the teacher network and each other. Experimental results on ImageNet-100 demonstrate that our approach achieves superior performance compared to baseline knowledge distillation methods, with ResNet-18 achieving 83.84\% top-1 accuracy and MobileNetV2 achieving 81.46\% top-1 accuracy, representing improvements of 2.04\% and 0.92\% respectively over traditional single-student distillation approaches.
- ID del Artículo: 2511.18826
- Título: Uncertainty-Aware Dual-Student Knowledge Distillation for Efficient Image Classification
- Autores: Aakash Gore, Anoushka Dey, Aryan Mishra (Indian Institute of Technology Bombay)
- Clasificación: cs.CV, cs.LG
- Fecha de Publicación: 24 de noviembre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2511.18826
La destilación de conocimiento se ha convertido en una técnica poderosa para la compresión de modelos, permitiendo la transferencia de conocimiento de redes docentes grandes a modelos estudiantes compactos. Sin embargo, los métodos tradicionales de destilación de conocimiento tratan todas las predicciones del docente de manera uniforme, ignorando las diferencias en el nivel de confianza del docente respecto a diferentes predicciones. Este artículo propone un marco de destilación de conocimiento de doble estudiante consciente de la incertidumbre, que aprovecha la incertidumbre en las predicciones del docente para guiar selectivamente el aprendizaje del estudiante. Se introduce un mecanismo de aprendizaje entre pares que permite que dos arquitecturas de estudiantes heterogéneos (ResNet-18 y MobileNetV2) aprendan de manera sinérgica de la red docente y entre sí. Los resultados experimentales en ImageNet-100 demuestran que el método supera los métodos de destilación de conocimiento de referencia, logrando una precisión top-1 del 83,84% para ResNet-18 y del 81,46% para MobileNetV2, mejorando respectivamente en un 2,04% y 0,92% en comparación con los métodos tradicionales de destilación de un solo estudiante.
Las redes neuronales profundas han logrado un éxito notable en tareas de visión por computadora, pero su implementación en dispositivos con recursos limitados sigue siendo un desafío. Este artículo aborda:
- Ceguera de la destilación de conocimiento tradicional: Los métodos existentes asignan el mismo peso a todas las predicciones del docente, ignorando las diferencias en el nivel de confianza del docente en diferentes muestras
- Limitaciones del estudiante único: Un modelo estudiante único no puede aprovechar plenamente las ventajas complementarias de múltiples arquitecturas
- Problema de transferencia negativa de conocimiento: Las predicciones inciertas del docente pueden desviar el aprendizaje del estudiante
Con la creciente demanda de modelos complejos de aprendizaje automático en dispositivos periféricos, plataformas móviles y sistemas integrados, la compresión de modelos se ha vuelto crítica. La destilación de conocimiento, como tecnología central, impacta directamente la viabilidad de la implementación práctica.
- Tratamiento uniforme: Los métodos tradicionales (como el KD original de Hinton et al.) utilizan un parámetro de temperatura unificado para todas las predicciones del docente, sin considerar la confiabilidad de la predicción
- Flujo de conocimiento unidireccional: Solo transferencia del docente al estudiante, sin aprovechar plenamente el potencial sinérgico entre múltiples estudiantes
- Ignorancia de la incertidumbre: Las predicciones de alta entropía del docente cerca de los límites de decisión o en muestras ambiguas pueden contener información engañosa
Se observan los siguientes hallazgos:
- El modelo docente muestra diferencias significativas en el nivel de confianza en diferentes muestras
- Las predicciones de alta entropía (inciertas) pueden contener información contradictoria y deberían tener menor impacto
- Las arquitecturas de estudiantes heterogéneos pueden aprender representaciones complementarias que se refuerzan mutuamente a través del aprendizaje entre pares
- Marco de destilación consciente de la incertidumbre: Propone un mecanismo que ajusta dinámicamente el peso de la guía del docente basado en la entropía de predicción, permitiendo que los estudiantes prioricen el aprendizaje de predicciones de alta confianza mientras mantienen robustez mediante supervisión de etiquetas duras
- Arquitectura de aprendizaje entre pares de doble estudiante: Introduce un mecanismo de aprendizaje colaborativo de dos modelos heterogéneos (ResNet-18 y MobileNetV2), logrando intercambio mutuo de conocimiento y aprendizaje de características complementarias
- Mejoras significativas en ImageNet-100: Valida la efectividad del método en arquitecturas de estudiantes de diferentes capacidades y principios de diseño, con mejoras del 2,04% para ResNet-18 y 0,92% para MobileNetV2
- Análisis profundo de patrones de confianza del docente: Proporciona información mecanicista sobre cómo la destilación consciente de la incertidumbre mejora el rendimiento, validando la contribución independiente de cada componente mediante estudios de ablación detallados
Dado un conjunto de datos de entrenamiento D={(xi,yi)}i=1N, donde xi∈RH×W×3 es una imagen de entrada e yi∈{1,...,C} es la etiqueta verdadera. El objetivo es:
- Utilizar una red docente preentrenada congelada T(θT)
- Entrenar simultáneamente dos redes estudiantes heterogéneas S1(θS1) y S2(θS2)
- Lograr una alta precisión de clasificación mientras se mantiene un costo computacional significativamente menor
El marco contiene tres componentes principales:
- Red Docente: ResNet-50 preentrenado (25,6M parámetros), parámetros congelados como fuente de conocimiento
- Estudiante 1: ResNet-18 (11,7M parámetros), relación de compresión 2,19×
- Estudiante 2: MobileNetV2 (3,5M parámetros), relación de compresión 7,31×
Para una entrada x, el docente produce logits zT=T(x), calculando la entropía de predicción como medida de incertidumbre:
H(x)=−∑c=1Cpclogpc
donde pc=∑j=1Cexp(zjT)exp(zcT) es la probabilidad softmax para la clase c.
La entropía normalizada produce un peso de confianza:
w(x)=1−logCH(x)
donde logC es la entropía máxima posible para C clases. Las predicciones de alta confianza (baja entropía) producen w(x)≈1, mientras que las predicciones inciertas (alta entropía) producen w(x)≈0.
La pérdida total para el estudiante Si (i∈{1,2}) es una combinación ponderada de tres objetivos de aprendizaje complementarios:
LSi=αLhard+βLteacher+γLpeer
Pérdida de etiqueta dura (manteniendo supervisión de etiqueta verdadera):
Lhard=CE(Si(x),y)
Pérdida de docente ponderada por incertidumbre (transferencia selectiva de conocimiento):
Lteacher=w(x)⋅τ2⋅KL(qSiτ∥pTτ)
donde qSiτ y pTτ son distribuciones softmax con temperatura τ, y τ2 corrige los cambios de amplitud introducidos por el escalado de temperatura.
Pérdida de aprendizaje entre pares (intercambio de conocimiento entre estudiantes):
Lpeer=τ2⋅KL(qSiτ∥qSjτ)
donde j=i representa el estudiante par. Se utiliza la operación detach para detener el flujo de gradientes, previniendo dependencias circulares.
Procedimiento de entrenamiento sincrónico:
- Propagación hacia adelante del docente: Calcular logits zT y peso de incertidumbre w(x)
- Propagación hacia adelante de estudiantes: Obtener zS1 y zS2
- Cálculo de pérdida: Calcular LS1 y LS2 respectivamente
- Optimización independiente: Actualizar θS1 y θS2 con optimizadores independientes
- KD Tradicional: Peso uniforme L=αLhard+βLteacher
- Método Propuesto: Introduce modulación a nivel de muestra w(x), añadiendo término de aprendizaje entre pares
- Entropía como incertidumbre: Computacionalmente eficiente (propagación hacia adelante única), refleja intuitivamente la confianza de predicción
- Selección de estudiantes heterogéneos: ResNet-18 (residual profundo) y MobileNetV2 (convolución separable profunda) poseen sesgos inductivos diferentes
- Optimización independiente: Permite que estudiantes de diferentes capacidades converjan a su propia tasa óptima
- Filtrado de transferencia negativa: Reduce el peso de predicciones inciertas, minimizando información engañosa
- Aprendizaje complementario: ResNet-18 captura características espaciales de grano fino, MobileNetV2 aprende representaciones discriminativas compactas
- Garantía de robustez: La pérdida de etiqueta dura proporciona un punto de anclaje confiable, previniendo dependencia excesiva del docente
ImageNet-100:
- Escala: 100 clases, aproximadamente 130.000 imágenes de entrenamiento, 5.000 imágenes de validación
- Clases: Abarcan categorías visuales diversas incluyendo animales, vehículos, objetos y escenas naturales
- Razón de selección: Mantiene suficiente complejidad mientras logra iteraciones experimentales más rápidas en comparación con ImageNet completo (1.000 clases, 1,2 millones de imágenes)
Preprocesamiento de datos:
- Aumento de entrenamiento:
- Recorte aleatorio a 224×224 píxeles
- Volteo horizontal con probabilidad del 50%
- Perturbación de color (brillo, contraste, saturación ±0,4)
- Preprocesamiento de validación:
- Redimensionamiento a 256×256, recorte central a 224×224
- Normalización con estadísticas de ImageNet (media=0,485, 0,456, 0,406, desv.est=0,229, 0,224, 0,225)
- Precisión Top-1: Proporción de predicciones correctas con confianza más alta
- Precisión Top-5: Proporción donde la etiqueta verdadera está en las 5 predicciones principales
- Eficiencia de entrenamiento: Tiempo total de entrenamiento (horas)
- Tamaño del modelo: Cantidad de parámetros y relación de compresión
- KD de Referencia (ResNet-18): Destilación de conocimiento tradicional, α=0,3,β=0,7
- KD de Referencia (MobileNetV2): Misma configuración aplicada a arquitectura más compacta
- Solo Etiquetas Duras: Entrenamiento solo con etiquetas verdaderas (α=1)
- Tamaño de lote: 64
- Épocas de entrenamiento: 50
- Optimizador: SGD, momento 0,9
- Tasa de aprendizaje: Inicial 0,1, recocido coseno a 0
- Decaimiento de peso: 1×10⁻⁴
- Parámetro de temperatura: τ=4,0
- Pesos de pérdida (doble estudiante): α=0,4,β=0,4,γ=0,2
- Hardware: No especificado explícitamente, pero tiempo de entrenamiento aproximadamente 7,5-12,4 horas
Tabla I: Comparación de Rendimiento en ImageNet-100
| Método | Arquitectura | Top-1 | Top-5 |
|---|
| KD de Referencia | ResNet-18 | 81,86% | 94,54% |
| KD de Referencia | MobileNetV2 | 80,54% | 94,54% |
| Método Propuesto | ResNet-18 | 83,84% | 96,36% |
| Método Propuesto | MobileNetV2 | 81,46% | 95,54% |
| Mejora | ResNet-18 | +2,04% | +1,82% |
| Mejora | MobileNetV2 | +0,92% | +1,00% |
Hallazgos Clave:
- Mejora Consistente: Ambas arquitecturas de estudiantes muestran mejoras significativas, validando la universalidad del método
- Sensibilidad de Capacidad: ResNet-18 (mayor capacidad) logra mayor mejora absoluta (2,04% vs 0,92%)
- Mejora Top-5: Indica que el método no solo mejora la predicción de confianza más alta, sino también optimiza el ordenamiento de clases
Tabla III: Estudio de Ablación de Componentes de Pérdida
| Configuración | ResNet-18 | MobileNetV2 |
|---|
| Solo etiqueta dura (α=1) | 78,2% | 76,1% |
| + Destilación de docente (β=0,7) | 81,9% | 80,5% |
| + Ponderación de incertidumbre | 82,8% | 81,0% |
| + Aprendizaje entre pares (γ=0,2) | 83,8% | 81,5% |
Análisis de Contribución Incremental:
- KD Tradicional: Mejora del 3,7% (ResNet-18) y 4,4% (MobileNetV2) comparado con etiqueta dura, validando el valor de etiquetas suaves
- Ponderación de Incertidumbre: Mejora adicional del 0,9-1,0%, demostrando la efectividad de la transferencia selectiva de conocimiento
- Aprendizaje entre Pares: Mejora adicional del 0,5-1,0%, mostrando las ventajas complementarias de la sinergia heterogénea
Efecto Acumulativo: Los tres componentes actúan sinérgicamente, logrando una mejora total del 5,6% (ResNet-18) y 5,4% (MobileNetV2)
Tabla II: Eficiencia de Entrenamiento
| Método | Tiempo de Entrenamiento | Épocas |
|---|
| Referencia (ResNet-18) | 7,58 horas | 50 |
| Referencia (MobileNetV2) | 7,50 horas | 50 |
| Doble Estudiante (ambos) | 12,36 horas | 50 |
Análisis de Eficiencia:
- El tiempo de entrenamiento aumenta 1,63× (no 2×), gracias a la inferencia compartida del docente y carga de datos
- Un entrenamiento produce dos modelos complementarios, proporcionando flexibilidad de implementación
- El costo de entrenamiento es una inversión única, sin gastos adicionales en inferencia
Características de Convergencia (época final):
- ResNet-18: Pérdida de entrenamiento 0,3030, precisión de entrenamiento 84,88%, precisión de validación 83,84% (brecha de generalización 1,04%)
- MobileNetV2: Pérdida de entrenamiento 0,3789, precisión de entrenamiento 79,35%, precisión de validación 81,46% (brecha de generalización -2,11%, validación superior a entrenamiento)
La pequeña brecha de generalización indica que el método previene efectivamente el sobreajuste.
Estadísticas de Confianza del Docente:
- Peso de confianza promedio: 0,816 (indicando que el docente es generalmente confiado)
- Entropía promedio: 4,533 (entropía máxima 4,605 para 100 clases)
- Incertidumbre normalizada: 0,184
Interpretación:
- El docente está bien preentrenado en ImageNet-100, con la mayoría de predicciones de alta confianza
- Existe un subconjunto significativo de muestras inciertas (aproximadamente 18,4%)
- La variabilidad en la distribución de confianza valida la necesidad de ponderación de incertidumbre
Tabla IV: Comparación de Tamaño de Modelo
| Modelo | Cantidad de Parámetros | Relación de Compresión |
|---|
| Docente (ResNet-50) | 25,6M | 1,00× |
| Estudiante 1 (ResNet-18) | 11,7M | 2,19× |
| Estudiante 2 (MobileNetV2) | 3,5M | 7,31× |
Compensaciones de Implementación:
- MobileNetV2: Compresión 7,31×, precisión 81,46%, adecuado para dispositivos móviles
- ResNet-18: Compresión 2,19×, precisión 83,84%, equilibra precisión y eficiencia
- El modelo dual proporciona flexibilidad para elegir según restricciones de recursos
- KD Original Hinton et al., 2015: Etiquetas suaves con escalado de temperatura
- Transferencia de Atención Zagoruyko & Komodakis, 2017: Coincidencia de mapas de atención
- Destilación de Características Romero et al., 2015: Alineación de representaciones intermedias
- Destilación de Relaciones Park et al., 2019: Preservación de relaciones entre muestras
Posicionamiento de este Trabajo: Basado en destilación de capa de salida, introduce modulación de incertidumbre
- Redes Neuronales Bayesianas Gal & Ghahramani, 2016: Distribuciones de parámetros
- Ensambles Profundos Lakshminarayanan et al., 2017: Divergencia de múltiples modelos
- Entropía de Predicción Shannon, 1948: Grado de expansión de distribución de probabilidad
Selección de Método: Adopta incertidumbre basada en entropía, computacionalmente eficiente (propagación hacia adelante única)
- Aprendizaje Mutuo Profundo Zhang et al., 2018: Aprendizaje entre pares sin docente
Innovación de este Trabajo: Combina aprendizaje docente-estudiante con aprendizaje entre pares, introduciendo ponderación de incertidumbre
- Efectividad de la Conciencia de Incertidumbre: La transferencia selectiva de conocimiento basada en confianza del docente mejora significativamente el rendimiento del estudiante
- Ganancia de Aprendizaje entre Pares: El aprendizaje colaborativo de estudiantes heterogéneos produce ventajas complementarias, beneficiando a ambos
- Validación de Universalidad: El método es efectivo en arquitecturas de diferentes capacidades (ResNet-18 y MobileNetV2)
- Equilibrio de Practicidad: Logra mejoras significativas en precisión y flexibilidad de implementación con aumento aceptable de costo de entrenamiento
- Aumento de Costo de Entrenamiento: El marco de doble estudiante requiere 1,63× tiempo de entrenamiento, limitando posibles escenarios con recursos restringidos
- Sensibilidad de Hiperparámetros: Los pesos de pérdida α,β,γ requieren ajuste cuidadoso, con configuración óptima dependiente de conjunto de datos y arquitectura
- Medida de Incertidumbre Única: Solo utiliza entropía, sin distinguir entre incertidumbre cognitiva (epistémica) e incertidumbre aleatoria
- Rango de Evaluación Limitado: Validado solo en clasificación de imágenes ImageNet-100, sin exploración en otras tareas (detección, segmentación) y dominios (PNL)
- Suposición de Entrenamiento Sincrónico: Requiere que ambos estudiantes se entrenen simultáneamente desde cero, no aplicable a escenarios con modelos parcialmente entrenados
- Extensión de Número de Estudiantes: Aprendizaje colaborativo más rico con tres o más estudiantes heterogéneos
- Estimación de Incertidumbre Avanzada: Monte Carlo Dropout o deep learning evidencial
- Aplicaciones Interdominios: PNL, reconocimiento de voz, aprendizaje multimodal
- Programación de Pesos Dinámica: Ajuste adaptativo de α,β,γ durante el entrenamiento
- Combinación con Otras Técnicas de Compresión: Poda, cuantización, búsqueda de arquitectura neuronal
- Transferibilidad de Patrones de Incertidumbre: Investigar consistencia de incertidumbre entre conjuntos de datos/tareas
- Motivación Teórica Clara: Basada en observación de diferencias de confianza del docente, propone transferencia selectiva de conocimiento con lógica sólida
- Diseño de Arquitectura Racional: La combinación de ponderación de incertidumbre y aprendizaje entre pares aprovecha plenamente múltiples fuentes de conocimiento
- Implementación Técnica Simple: El cálculo de incertidumbre basado en entropía es eficiente, sin gastos de entrenamiento adicionales
- Estudio de Ablación Completo: Valida sistemáticamente la contribución independiente de cada componente (KD tradicional, incertidumbre, aprendizaje entre pares)
- Validación Multi-Arquitectura: Verifica en ResNet-18 y MobileNetV2, demostrando universalidad
- Análisis Estadístico Detallado: Proporciona dinámicas de entrenamiento, distribución de incertidumbre, características de convergencia
- Mejora Consistente: Ambas arquitecturas de estudiantes muestran mejoras significativas (2,04% y 0,92%), no accidental
- Ganancia Acumulativa Evidente: Experimentos de ablación muestran sinergia de componentes, mejora total superior al 5%
- Buen Rendimiento de Generalización: Pequeña brecha de generalización (1,04% y -2,11%) indica robustez del método
- Estructura completa, lógica fluida
- Símbolos matemáticos estándar, derivaciones de fórmulas claras
- Figuras y tablas intuitivas (Figuras 1-3 muestran comparación de marcos)
- Medida de Incertidumbre Simple: Solo utiliza entropía, sin considerar tipos más refinados de incertidumbre
- Dependencia de Hiperparámetros: Los pesos de pérdida requieren ajuste manual, carece de mecanismo adaptativo
- Limitación de Entrenamiento Sincrónico: No soporta escenarios de entrenamiento asincrónico o incremental
- Conjunto de Datos Único: Validado solo en ImageNet-100, sin pruebas en ImageNet completo u otros conjuntos (CIFAR, COCO)
- Rango de Tareas Estrecho: Solo clasificación de imágenes, sin exploración de detección, segmentación
- Falta de Comparación con Métodos Avanzados: Sin comparación con métodos SOTA recientes (CRD, ReviewKD)
- Falta de Pruebas de Significancia Estadística: No reporta media y varianza de múltiples ejecuciones
- Falta de Visualización de Patrones de Incertidumbre: No muestra qué muestras reciben pesos altos/bajos
- Mecanismo de Aprendizaje entre Pares Opaco: No analiza profundamente cómo se complementan los dos estudiantes, qué características se comparten
- Falta de Análisis de Casos de Fallo: No discute en qué situaciones falla el método
- Código No Publicado: El artículo no menciona planes de publicación de código
- Configuración de Hardware No Detallada: Se reporta tiempo de entrenamiento pero no se especifica modelo de GPU y cantidad
- Semilla Aleatoria No Fijada: No menciona medidas de garantía de reproducibilidad
- Innovación Moderada: La ponderación de incertidumbre es una extensión natural, pero su implementación y validación sistemática tienen valor
- Fuerte Inspiración: Introduce perspectiva de transferencia selectiva a destilación de conocimiento, puede inspirar investigación posterior
- Buena Practicidad: El método es simple, fácil de integrar en marcos de destilación existentes
- Flexibilidad de Implementación: Proporciona dos modelos comprimidos (2,19× y 7,31×), adaptándose a diferentes restricciones de recursos
- Costo de Entrenamiento Aceptable: Aumento de 1,63× en tiempo para mejora significativa de rendimiento, ROI razonable
- Plug and Play: Sin necesidad de modificar arquitecturas de docente o estudiante, fuerte compatibilidad
- Dificultad Moderada: Descripción clara del método, pero carece de código y detalles completos de hiperparámetros
- Conjunto de Datos Accesible: ImageNet-100 puede construirse desde subconjunto de ImageNet
- Recursos Computacionales Moderados: 50 épocas, 12 horas de entrenamiento, completable en GPU única
- Implementación en Dispositivos Móviles: El estudiante MobileNetV2 es adecuado para entornos con recursos extremadamente limitados
- Computación Periférica: El estudiante ResNet-18 equilibra precisión y eficiencia
- Necesidad Clara de Compresión de Modelos: Docente fuerte disponible, necesidad de compresión a tamaño específico
- Integración de Múltiples Modelos: Dos estudiantes heterogéneos pueden usarse para predicción integrada
- Sin Docente Preentrenado: El método depende de docente de alta calidad, no aplicable a escenarios de entrenamiento desde cero
- Requisito de Latencia Muy Baja: El tiempo de entrenamiento de doble estudiante es largo, limitado en escenarios de iteración rápida
- Tareas No Visuales: Requiere validación de adaptabilidad en PNL, voz, etc.
- Conjunto de Datos Pequeño: La escala ImageNet-100 es relativamente grande, posible sobreajuste en conjuntos pequeños
- Aprendizaje Multitarea: Extensión a destilación simultánea de clasificación, detección, etc.
- Destilación en Línea: Exploración de escenarios de datos en flujo con adaptación automática de incertidumbre
- Aprendizaje Federado: Mecanismo de aprendizaje entre pares en entorno distribuido
- Hinton et al., 2015 - Trabajo fundamental de destilación de conocimiento
- Gal & Ghahramani, 2016 - Dropout como aproximación bayesiana
- Zhang et al., 2018 - Aprendizaje mutuo profundo (precursor de aprendizaje entre pares)
- Zagoruyko & Komodakis, 2017 - Transferencia de atención
- Park et al., 2019 - Destilación de conocimiento relacional
| Dimensión | Calificación (1-5) | Explicación |
|---|
| Innovación | 3,5/5 | La ponderación de incertidumbre es innovación progresiva, combinación de aprendizaje entre pares tiene novedad |
| Profundidad Técnica | 3/5 | Método simple pero carece de análisis teórico, medida de incertidumbre relativamente superficial |
| Completitud Experimental | 3,5/5 | Estudio de ablación suficiente, pero carece de comparación multi-conjunto de datos y SOTA |
| Valor Práctico | 4/5 | Fácil de implementar, rendimiento estable, alta flexibilidad de implementación |
| Calidad de Escritura | 4/5 | Estructura clara, expresión fluida, figuras y tablas intuitivas |
| Evaluación Integral | 3,6/5 | Trabajo aplicado sólido, método práctico pero innovación limitada |
Público Objetivo Recomendado: Académicos e ingenieros dedicados a compresión de modelos e investigación de destilación de conocimiento, especialmente profesionales enfocados en implementación en dispositivos móviles.