When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks
- ID del Artículo: 2405.11337
- Título: A Unified Approach Towards Active Learning and Out-of-Distribution Detection
- Autores: Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann
- Clasificación: cs.CV
- Fecha de Publicación: Mayo de 2024 (arXiv v3: 12 de octubre de 2025)
- Enlace del Artículo: https://arxiv.org/abs/2405.11337
Al aplicar modelos de aprendizaje profundo en escenarios de mundo abierto, las estrategias de aprendizaje activo (AL) son cruciales para identificar candidatos de etiquetado a partir de grandes volúmenes de datos sin etiquetar. En este contexto, los mecanismos robustos de detección fuera de distribución (OOD) son necesarios para manejar datos fuera de la distribución objetivo de la aplicación. Sin embargo, los trabajos actuales estudian estos dos problemas de manera independiente. Este artículo introduce SISOM como la primera solución unificada para AL y detección OOD. Al aprovechar métricas de distancia en el espacio de características, SISOM combina las ventajas de tareas actualmente independientes para resolver efectivamente ambos problemas. En el benchmark OpenOOD, SISOM logró un primer lugar y dos posiciones en el top tres en datos cercanos a OOD, además de alcanzar un desempeño de nivel superior en tareas de AL.
- Desafíos del Aprendizaje Activo: Los modelos de aprendizaje profundo a gran escala requieren grandes cantidades de datos anotados, pero el costo de anotación es elevado, necesitando seleccionar inteligentemente las muestras más valiosas para anotar.
- Necesidad de Detección OOD: Los modelos en despliegue práctico encuentran datos fuera de la distribución de entrenamiento, requiriendo mecanismos confiables de detección OOD.
- Limitaciones del Tratamiento Independiente: Los métodos existentes tratan AL y detección OOD como tareas independientes, resultando en objetivos de diseño conflictivos y complejidad del sistema.
- Demandas de Aplicaciones Prácticas: Robots móviles, conducción autónoma y otras aplicaciones prácticas requieren manejar simultáneamente eficiencia de etiquetado y problemas de datos fuera de distribución.
- Descubrimiento de Asociación de Tareas: Los autores observan que datos cercanos a OOD y datos sin etiquetar en candidatos de AL muestran superposición y ambigüedad en el espacio latente.
- Ventajas del Método Unificado: El tratamiento unificado puede eliminar los gastos de las fases de diseño independiente, evitando objetivos de diseño conflictivos.
El artículo descubre mediante visualización UMAP que datos cercanos a OOD y candidatos de AL sin etiquetar se ubican cerca en el espacio de características, tendiendo a posicionarse entre agrupamientos existentes o cerca de límites de decisión, proporcionando una base teórica para el método unificado.
- Primer Método Unificado: Propone SISOM como el primer método especialmente diseñado para abordar simultáneamente AL y detección OOD.
- Técnica de Análisis del Espacio de Características: Introduce análisis del espacio latente, realizando un ciclo de optimización de refinamiento del espacio de características después del entrenamiento.
- Mecanismo de Fusión Autoequilibrada: Propone un método de fusión autoequilibrada de medidas de incertidumbre y diversidad.
- Desempeño Experimental Excepcional: Logra desempeño excepcional contra métodos de última generación altamente especializados en benchmarks comunes de AL e imágenes OOD.
Aprendizaje Activo: Comenzando con un conjunto de etiquetado inicial L y un conjunto sin etiquetar U, el modelo f selecciona nuevas muestras A para anotar mediante una estrategia de consulta Q(x,f), con el objetivo de lograr el mejor desempeño con la menor cantidad de anotaciones.
Detección OOD: Dado un modelo f entrenado en la distribución Ω, determinar si una muestra de prueba x̃ proviene de dentro de distribución (InD) o fuera de distribución (OOD):
undefined