2025-11-25T00:34:17.070097

A Unified Approach Towards Active Learning and Out-of-Distribution Detection

Schmidt, Schenk, Schwinn et al.

When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks

academic

Un Enfoque Unificado Hacia el Aprendizaje Activo y la Detección Fuera de Distribución

Información Básica

ID del Artículo: 2405.11337
Título: A Unified Approach Towards Active Learning and Out-of-Distribution Detection
Autores: Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann
Clasificación: cs.CV
Fecha de Publicación: Mayo de 2024 (arXiv v3: 12 de octubre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2405.11337

Resumen

Al aplicar modelos de aprendizaje profundo en escenarios de mundo abierto, las estrategias de aprendizaje activo (AL) son cruciales para identificar candidatos de etiquetado a partir de grandes volúmenes de datos sin etiquetar. En este contexto, los mecanismos robustos de detección fuera de distribución (OOD) son necesarios para manejar datos fuera de la distribución objetivo de la aplicación. Sin embargo, los trabajos actuales estudian estos dos problemas de manera independiente. Este artículo introduce SISOM como la primera solución unificada para AL y detección OOD. Al aprovechar métricas de distancia en el espacio de características, SISOM combina las ventajas de tareas actualmente independientes para resolver efectivamente ambos problemas. En el benchmark OpenOOD, SISOM logró un primer lugar y dos posiciones en el top tres en datos cercanos a OOD, además de alcanzar un desempeño de nivel superior en tareas de AL.

Contexto de Investigación y Motivación

Definición del Problema

Desafíos del Aprendizaje Activo: Los modelos de aprendizaje profundo a gran escala requieren grandes cantidades de datos anotados, pero el costo de anotación es elevado, necesitando seleccionar inteligentemente las muestras más valiosas para anotar.
Necesidad de Detección OOD: Los modelos en despliegue práctico encuentran datos fuera de la distribución de entrenamiento, requiriendo mecanismos confiables de detección OOD.
Limitaciones del Tratamiento Independiente: Los métodos existentes tratan AL y detección OOD como tareas independientes, resultando en objetivos de diseño conflictivos y complejidad del sistema.

Motivación de la Investigación

Demandas de Aplicaciones Prácticas: Robots móviles, conducción autónoma y otras aplicaciones prácticas requieren manejar simultáneamente eficiencia de etiquetado y problemas de datos fuera de distribución.
Descubrimiento de Asociación de Tareas: Los autores observan que datos cercanos a OOD y datos sin etiquetar en candidatos de AL muestran superposición y ambigüedad en el espacio latente.
Ventajas del Método Unificado: El tratamiento unificado puede eliminar los gastos de las fases de diseño independiente, evitando objetivos de diseño conflictivos.

Perspectiva Central

El artículo descubre mediante visualización UMAP que datos cercanos a OOD y candidatos de AL sin etiquetar se ubican cerca en el espacio de características, tendiendo a posicionarse entre agrupamientos existentes o cerca de límites de decisión, proporcionando una base teórica para el método unificado.

Contribuciones Principales

Primer Método Unificado: Propone SISOM como el primer método especialmente diseñado para abordar simultáneamente AL y detección OOD.
Técnica de Análisis del Espacio de Características: Introduce análisis del espacio latente, realizando un ciclo de optimización de refinamiento del espacio de características después del entrenamiento.
Mecanismo de Fusión Autoequilibrada: Propone un método de fusión autoequilibrada de medidas de incertidumbre y diversidad.
Desempeño Experimental Excepcional: Logra desempeño excepcional contra métodos de última generación altamente especializados en benchmarks comunes de AL e imágenes OOD.

Explicación Detallada del Método

Definición de Tareas

Aprendizaje Activo: Comenzando con un conjunto de etiquetado inicial L y un conjunto sin etiquetar U, el modelo f selecciona nuevas muestras A para anotar mediante una estrategia de consulta Q(x,f), con el objetivo de lograr el mejor desempeño con la menor cantidad de anotaciones.

Detección OOD: Dado un modelo f entrenado en la distribución Ω, determinar si una muestra de prueba x̃ proviene de dentro de distribución (InD) o fuera de distribución (OOD):

$G(x, f) = \begin{cases} \text{InD} & \text{si } S(x; f) \geq \lambda \\ \text{OOD} & \text{si } S(x; f) < \lambda \end{cases}$

Arquitectura del Método SISOM

SISOM contiene cinco componentes principales:

1. Cobertura (Coverage)

Construye una representación del espacio de características informativa, conectando múltiples capas de red: $z = h_1(x) \oplus \cdots \oplus h_j(x) \oplus \cdots \oplus h_n(x)$

2. Mejora de Características (Feature Enhancement)

Utiliza características ponderadas por gradiente de divergencia KL: $g = \frac{\partial D_{KL}(u||f(x))}{\partial z}$ $\tilde{z} = \sigma(z \odot g)$

donde u es una distribución uniforme y ⊙ denota el producto de Hadamard.

3. Razón de Distancia (Distance Ratio)

Define distancia intraclase y distancia interclase: $d_{in}(\tilde{z}) = \min_{z' \in Z_L(c'=c)} ||\tilde{z} - \tilde{z}'||_2$ $d_{out}(\tilde{z}) = \min_{z' \in Z_L(c' \neq c)} ||\tilde{z} - \tilde{z}'||_2$

Puntuación SISOM: $r(x) = \frac{d_{in}}{d_{out}}$

4. Análisis del Espacio de Características (Feature Space Analysis)

Calcula la razón de distancia promedio como proxy de separabilidad del espacio de características: $r_{avg} = \frac{1}{|L|} \sum_{z \in L} \frac{d_{in}(\sigma(z \odot g))}{d_{out}(\sigma(z \odot g))}$

Fusión adaptativa de incertidumbre y diversidad: $\hat{r}_i = \min(r_{avg}, 1) \cdot E_i + \max(1 - r_{avg}, 0) \cdot r_i$

5. Pendiente Sigmoid (Sigmoid Steepness)

Optimiza el parámetro de pendiente α de la función sigmoid en cada capa para mejorar la separabilidad del espacio de características: $\alpha_{opt} = \arg\min_\alpha r_{avg}(\alpha)$

Puntos de Innovación Técnica

Diseño de Métrica Unificada: El diseño de razón de distancia captura simultáneamente las necesidades de AL y detección OOD.
Fusión Adaptativa: Equilibra automáticamente incertidumbre y diversidad según la calidad del espacio de características.
Integración de Características Multicapa: Aprovecha información de múltiples capas de la red para mejorar la capacidad de representación.
Ponderación por Gradiente: Destaca neuronas importantes mediante gradientes de divergencia KL.

Configuración Experimental

Conjuntos de Datos

Aprendizaje Activo:

CIFAR-10/100: tamaño de consulta q=1000/2000
SVHN: tamaño de consulta q=500
Utilizando arquitecturas ResNet18/34

Detección OOD:

Sigue la configuración del benchmark OpenOOD
CIFAR-10: OOD cercano (CIFAR-100, Tiny ImageNet), OOD lejano (MNIST, SVHN, etc.)
CIFAR-100: OOD cercano (CIFAR-10, Tiny ImageNet), OOD lejano (MNIST, SVHN, etc.)
ImageNet-1k: OOD cercano (SSB-hard, NINCO), OOD lejano (iNaturalist, etc.)

Métricas de Evaluación

Aprendizaje Activo: Precisión de clasificación en función del porcentaje de datos anotados.
Detección OOD: AUROC (Área Bajo la Curva ROC)

Métodos de Comparación

Líneas Base de Aprendizaje Activo:

CoreSet, Badge, Learning Loss, CoreGCN
Configuración semisupervisada: TypiClust, ProbCover, PT4AL

Líneas Base de Detección OOD:

NAC, KNN, MSP, Energy, ReAct, SCALE y otros 17 métodos

Resultados Experimentales

Resultados Principales

Desempeño del Aprendizaje Activo

CIFAR-10: SISOM y SISOMe superan otros métodos en todos los ciclos de selección.
CIFAR-100: Alcanza el desempeño más alto en pasos de selección posteriores.
Configuración Semisupervisada: SISOM se beneficia significativamente del preentrenamiento, superando PT4AL.

Desempeño de Detección OOD

Conjunto de Datos	SISOMe	SISOM	Mejor Línea Base
CIFAR-10 (OOD Cercano)	91.76	91.40	91.13
CIFAR-100 (OOD Cercano)	81.10	79.42	81.31
ImageNet (OOD Cercano)	78.59	77.33	95.22

Clasificación Integral: SISOMe obtiene posiciones en el top tres en los tres benchmarks, con clasificación general en primer lugar.

Experimentos de Ablación

Pendiente Sigmoid Óptima: Mejora el desempeño en CIFAR-100 e ImageNet.
Reducción de Selección de Subconjuntos: Aumenta significativamente la velocidad de inferencia, con ligera mejora en desempeño.
Efecto de Mejora de Características: La ponderación por gradiente de divergencia KL mejora significativamente la separabilidad del espacio de características.

Análisis de Tiempo de Ejecución

Método	SISOM	SISOMe	Badge	CoreSet
Tiempo (segundos)	1477±896	954±126	33664±6682	2604±1572

Mediante selección de subconjuntos del 5%, el tiempo de ejecución de SISOMe se reduce a 266 segundos, con ligera mejora en desempeño.

Experimento de Ciclo de Vida Completo

Utilizando puntos de control entrenados con AL para detección OOD, SISOMe logra el mejor desempeño tanto en OOD cercano como lejano, demostrando la efectividad del método unificado.

Trabajo Relacionado

Aprendizaje Activo

Métodos de Incertidumbre: Monte Carlo Dropout, métodos de conjunto.
Métodos de Diversidad: CoreSet, Badge y otros métodos basados en gradientes.
Métodos Híbridos: Métodos que combinan incertidumbre y diversidad.

Detección OOD

Métodos de Preprocesamiento: Aumento de datos, entrenamiento mixto.
Métodos de Postprocesamiento: Filtrado de neuronas, operaciones de pesos.
Basados en Logits: Escalado de temperatura, puntuación de energía.
Métodos del Espacio de Características: Distancia de Mahalanobis, k-vecinos más cercanos.

Aprendizaje Activo de Conjunto Abierto

Los métodos existentes utilizan principalmente módulos independientes para manejar AL y OOD; este trabajo explora por primera vez la asociación intrínseca entre ambas tareas.

Conclusiones y Discusión

Conclusiones Principales

Viabilidad de Unificación: Demuestra por primera vez que AL y detección OOD pueden resolverse efectivamente mediante un único método.
Superioridad de Desempeño: Alcanza o se aproxima al desempeño de última generación en ambas tareas.
Valor Práctico: Simplifica la complejidad de despliegue en aplicaciones prácticas.

Limitaciones

Complejidad Computacional: El cálculo de distancias introduce gastos adicionales, aunque puede mitigarse mediante selección de subconjuntos.
Dependencia del Espacio de Características: El desempeño del método depende de la separabilidad del espacio de características.
Sensibilidad a Hiperparámetros: El parámetro de pendiente sigmoid requiere ajuste para diferentes conjuntos de datos.

Direcciones Futuras

Aprendizaje Activo de Conjunto Abierto: Extender el método unificado a escenarios de AL de conjunto abierto.
Tareas Complejas: Extender a tareas más complejas como detección de objetos y segmentación semántica.
Diversidad de Lotes: Investigar técnicas de diversidad de lotes en métodos de doble tarea.

Evaluación Profunda

Fortalezas

Innovación Fuerte: Propone por primera vez un método unificado para AL y detección OOD, con importante valor teórico y práctico.
Diseño de Método Ingenioso: El diseño de razón de distancia es simple pero efectivo; el mecanismo de fusión adaptativa refleja perspectivas profundas.
Experimentación Integral: Cubre múltiples conjuntos de datos y líneas base, incluyendo experimentos de ablación y análisis de tiempo de ejecución.
Base Teórica Sólida: Revela la asociación intrínseca entre ambas tareas mediante análisis de visualización.

Deficiencias

Análisis Teórico Insuficiente: Carece de garantías teóricas sobre convergencia y capacidad de generalización del método.
Limitaciones de Aplicabilidad: Principalmente verificado en tareas de clasificación de imágenes; la aplicabilidad en otros dominios es desconocida.
Complejidad de Ajuste de Parámetros: Múltiples hiperparámetros requieren ajuste para diferentes conjuntos de datos, lo que puede afectar la practicidad.

Impacto

Contribución Académica: Abre una nueva dirección para investigación unificada de AL y detección OOD.
Valor Práctico: Tiene importancia significativa para aplicaciones prácticas como robots móviles y conducción autónoma.
Reproducibilidad: Proporciona detalles de implementación detallados y código, facilitando reproducción y extensión.

Escenarios Aplicables

Entornos con Recursos Limitados: Aplicaciones que necesitan considerar simultáneamente eficiencia de etiquetado y detección de distribución externa.
Sistemas en Tiempo Real: Mediante selección de subconjuntos, puede mejorar eficiencia mientras mantiene desempeño.
Aplicaciones de Mundo Abierto: Conducción autónoma, navegación de robots y otros escenarios que enfrentan cambios de distribución.

Referencias

El artículo cita numerosos trabajos relacionados, incluyendo principalmente:

Aprendizaje Activo: Settles (2010), Sener & Savarese (2018), Ash et al. (2020)
Detección OOD: Yang et al. (2022), Liu et al. (2020), Sun et al. (2022)
Benchmark OpenOOD: Yang et al. (2022), Zhang et al. (2023)

Evaluación General: Este es un artículo de investigación de alta calidad que propone un método unificado innovador para resolver dos problemas importantes, con verificación experimental suficiente e impacto significativo en el avance del campo relacionado. A pesar de algunas deficiencias en aspectos teóricos y prácticos, sus contribuciones pioneras y desempeño excepcional lo convierten en un trabajo importante en el área.