2025-11-19T15:49:13.925681

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic

Teoría de Decisión Bayesiana Miope para Aprendizaje Activo por Lotes con Muestreo Parcial de Etiquetas de Lote

Información Básica

  • ID del Artículo: 2510.09877
  • Título: Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
  • Autores: Kangping Hu, Stephen Mussmann (Georgia Institute of Technology)
  • Clasificación: cs.LG cs.AI stat.ML
  • Fecha de Publicación: 10 de octubre de 2025 (Preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09877v1

Resumen

En las últimas décadas, se han propuesto numerosas funciones de adquisición para aprendizaje activo, pero los profesionales a menudo encuentran dificultades para seleccionar el método apropiado. La teoría de decisión bayesiana (TDB) proporciona principios generales para guiar la toma de decisiones. Este artículo deriva la TDB para aprendizaje activo (bayesiano) bajo un marco miope, asumiendo que solo se necesita anotar un punto de datos adicional. Esta derivación produce algoritmos efectivos como la reducción de error esperada (REE), la ganancia de información predictiva esperada (GIPE), entre otros. Además, los autores demuestran que BAIT puede derivarse mediante TDB y aproximaciones asintóticas. El desafío clave de estos métodos es la dificultad de escalar a tamaños de lote grandes, lo que genera desafíos computacionales (BatchBALD) o caídas drásticas de rendimiento (selección top-B). Este artículo deriva el método de muestreo parcial de etiquetas de lote (ParBaLS) para el algoritmo GIPE mediante una formulación específica del proceso de decisión. Los experimentos demuestran que ParBaLS GIPE presenta un rendimiento superior en múltiples conjuntos de datos bajo presupuestos fijos y regresión logística bayesiana en incrustaciones neuronales.

Antecedentes de Investigación y Motivación

Definición del Problema

El aprendizaje activo tiene como objetivo seleccionar los datos más informativos de un gran conjunto de datos sin etiquetar para su anotación, maximizando el rendimiento del modelo bajo un presupuesto de anotación limitado. Los métodos existentes incluyen enfoques heurísticos y probabilísticos, pero carecen de principios de selección explícitos.

Importancia del Problema

  1. Necesidad Práctica: En el aprendizaje automático moderno, los datos típicamente se anotan en lotes en lugar de individualmente
  2. Dificultad en la Selección de Métodos: Los algoritmos existentes carecen de interpretabilidad, dificultando que los profesionales determinen cuándo y qué algoritmo es efectivo
  3. Desafíos de Escalabilidad: Los métodos existentes enfrentan problemas computacionales o de rendimiento con tamaños de lote grandes

Limitaciones de Métodos Existentes

  1. Selección Top-B: Ignora las dependencias entre etiquetas de lote, pudiendo seleccionar muestras redundantes
  2. Diversidad Heurística: Requiere ajuste de hiperparámetros específicos del conjunto de datos, inviable en aprendizaje activo
  3. Adquisición de Lotes Codicioso: Métodos como BatchBALD tienen complejidad computacional que crece exponencialmente con el tamaño del lote

Motivación de la Investigación

Proporcionar un marco teórico unificado mediante teoría de decisión bayesiana, explicar el funcionamiento de algoritmos existentes y proponer nuevos métodos que manejen efectivamente la selección de lotes.

Contribuciones Principales

  1. Unificación Teórica: Unifica múltiples algoritmos (REE, GIPE, BAIT, etc.) como resultados derivados de la teoría de decisión bayesiana miope (TDBM)
  2. Propuesta de Nuevo Método: Introduce muestreo parcial de etiquetas de lote (ParBaLS) para resolver desafíos del aprendizaje activo por lotes
  3. Análisis Teórico: Demuestra que el error de aproximación de Monte Carlo de ParBaLS es O(1/√m), independiente del tamaño del lote
  4. Verificación Experimental: Valida el rendimiento superior de ParBaLS GIPE en 10 configuraciones diferentes

Explicación Detallada del Método

Definición de la Tarea

Dado un dominio de entrada X, un dominio de salida Y y un conjunto de datos sin etiquetar D⊂X, el objetivo es seleccionar iterativamente T lotes S⊂D, cada uno con tamaño |S|=B para anotación, minimizando la pérdida de prueba después del entrenamiento en el conjunto anotado.

Teoría de Decisión Bayesiana Miope (TDBM)

Derivación de Selección de Punto Único

Bajo el marco miope, asumiendo la selección de un único punto de datos adicional x̂, el siguiente punto a anotar es:

argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]

Para pérdida de log-verosimilitud negativa, la predicción óptima es la distribución posterior, y la pérdida esperada se simplifica a entropía:

argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)

Esto es equivalente a algoritmos GIPE y REE.

Desafío de Selección de Lotes

Las estrategias de lotes existentes se dividen en tres categorías:

  1. Top-B: Selecciona los B puntos con puntuación más alta, ignorando relaciones de dependencia
  2. Diversidad Heurística: Añade aleatoriedad o diversidad, requiriendo ajuste de hiperparámetros
  3. Adquisición de Lotes Codicioso: Optimiza el lote completo, con alta complejidad computacional

Método ParBaLS

Idea Central

Introduce un lote parcial comprometido S con etiquetas no observadas. El siguiente punto óptimo es:

argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]

Estimación de Monte Carlo

Utiliza estimación de Monte Carlo para manejar sumas de nivel exponencial:

argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)

Flujo del Algoritmo

El algoritmo ParBaLS construye el lote progresivamente:

  1. Inicializa lote vacío S=∅
  2. Entrena modelo bayesiano M_L
  3. Muestrea m versiones de pseudoetiquetas y^{(i)}~Y_D|L
  4. Para cada posición de lote:
    • Calcula puntuación GIPE para cada punto candidato
    • Selecciona el punto con puntuación más alta para añadir al lote
    • Actualiza m modelos paralelos con pseudoetiquetas
  5. Devuelve lote completo

Derivación de BAIT

Mediante aproximación asintótica informal, BAIT también puede derivarse de principios TDBM:

Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))

Configuración Experimental

Conjuntos de Datos

Los experimentos abarcan 6 categorías de conjuntos de datos:

  1. Datos Tabulares: Airline Passenger Satisfaction, Credit Card Fraud
  2. Datos de Imagen Estándar: CIFAR-10, CIFAR-100
  3. Datos de Imagen del Mundo Real: iWildCam, fMoW (del benchmark WILDS)
  4. Datos de Imagen Uno-a-Muchos: Conversión de multiclase a binario en escenarios desbalanceados
  5. Datos de Imagen con Desplazamiento de Subgrupo: Configuración de tres clases, prueba solo en las dos primeras clases

Configuración del Modelo

  • Datos de Imagen: Utiliza modelo de incrustación fija (CLIP-ViT-B/32 para WILDS, DINOv2-ViT-S/14 para CIFAR)
  • Datos Tabulares: Aplica directamente regresión logística bayesiana
  • Configuración Bayesiana: k=400 muestras de parámetros posteriores, utilizando muestreador NUTS

Métricas de Evaluación

Utiliza precisión de prueba como métrica de evaluación principal

Métodos de Comparación

  • Métodos Bayesianos: GIPE, BALD (con top-B o ruido Gumbel)
  • Métodos Base: Random, Confidence, BatchBALD
  • Método Propuesto: ParBaLS-MAP GIPE, ParBaLS GIPE

Parámetros Experimentales

  • T=10 iteraciones, presupuesto de B=10 muestras por iteración
  • Muestreo aleatorio inicial de 500 muestras
  • Para algunas configuraciones utiliza B=20, 100 muestras iniciales para aumentar discriminabilidad
  • Cada configuración se ejecuta 5 veces con semillas diferentes

Resultados Experimentales

Resultados Principales

Según los resultados experimentales completos de la Tabla 1, ParBaLS GIPE presenta el mejor rendimiento en 9 de 10 configuraciones:

AlgoritmoMedia MáximaEntra en Primeros
ParBaLS GIPE49
ParBaLS-MAP GIPE27
SoftRankGIPE04
GIPE04
Confidence35

Rendimiento Específico

Conjuntos de Datos Tabulares (Rendimiento más destacado):

  • Airline Passenger Satisfaction: ParBaLS GIPE alcanza 89.42±0.41%
  • Credit Card Fraud: ParBaLS GIPE alcanza 93.55±0.23%

Configuración de Desplazamiento de Subgrupo (Más desafiante):

  • fMoW: ParBaLS GIPE alcanza 31.37±6.60%, significativamente superior a otros métodos
  • iWildCam: ParBaLS GIPE alcanza 84.72±1.98%

Análisis de Curvas de Aprendizaje

La Figura 2 muestra que en conjuntos de datos tabulares, el método ParBaLS mantiene ventaja consistente durante todo el proceso de aprendizaje, con rendimiento particularmente destacado en configuraciones de presupuesto bajo.

Experimentos de Ablación

  • ParBaLS vs ParBaLS-MAP: ParBaLS completo generalmente supera la versión que utiliza solo etiquetas MAP
  • Impacto del Tamaño de Lote: La ventaja de ParBaLS es más evidente con lotes más grandes (B=20)
  • Punto Único vs Lote: Los experimentos en apéndice muestran que aunque la selección de punto único (B=1) tiene mejor rendimiento, la selección de lote es más eficiente en aplicaciones prácticas

Trabajo Relacionado

Clasificación de Métodos de Aprendizaje Activo

  1. Métodos Heurísticos: Basados en incertidumbre (Confidence, Margin, Entropy), diversidad (CORESET) o ambos (BADGE, GALAXY)
  2. Métodos Probabilísticos: BALD, BatchBALD, BAIT, etc., basados en teoría de información o principios bayesianos

Reducción de Error Esperada (REE)

REE se enfoca directamente en métricas de rendimiento como pérdida cero-uno y log-verosimilitud, proporcionando mejor interpretabilidad. El trabajo relacionado incluye variantes que combinan métodos heurísticos y métodos adaptativos para escenarios de presupuesto bajo.

Pseudoetiquetas en Aprendizaje Activo

A diferencia del aprendizaje semisupervisado, las pseudoetiquetas en aprendizaje activo se utilizan principalmente para:

  1. Aumento de Entrenamiento: Entrenamiento combinando etiquetas reales y pseudoetiquetas
  2. Construcción de Lotes: La innovación de ParBaLS radica en utilizar pseudoetiquetas solo temporalmente para construir lotes, sin contaminar los datos anotados finales

Conclusiones y Discusión

Conclusiones Principales

  1. Unificación Teórica: TDBM proporciona base teórica unificada para múltiples algoritmos de aprendizaje activo
  2. Solución de Lotes: ParBaLS resuelve efectivamente el problema de escalabilidad del aprendizaje activo por lotes
  3. Verificación Experimental: ParBaLS GIPE presenta rendimiento superior en múltiples configuraciones, particularmente adecuado para escenarios de alta incertidumbre

Limitaciones

  1. Complejidad Computacional: La complejidad temporal de ParBaLS es O(TBm), donde m modelos paralelos aumentan la carga computacional
  2. Aplicabilidad del Método: Principalmente verificado en regresión logística bayesiana, requiriendo investigación adicional para extensión a redes neuronales profundas
  3. Análisis Teórico: La derivación de BAIT depende de aproximaciones asintóticas informales, requiriendo mayor rigor teórico

Direcciones Futuras

  1. Eficiencia Computacional: Encontrar métodos de aproximación computacionalmente eficientes, extendiendo a conjuntos de datos y modelos más grandes
  2. Integración de Aprendizaje Profundo: Investigar cómo extender ParBaLS al entrenamiento completo de redes neuronales profundas
  3. Perfeccionamiento Teórico: Proporcionar análisis teórico más riguroso y garantías de convergencia

Evaluación Profunda

Fortalezas

  1. Contribución Teórica: Proporciona marco teórico unificado para algoritmos de aprendizaje activo, mejorando interpretabilidad
  2. Valor Práctico: ParBaLS resuelve problemas de selección de lotes en aplicaciones reales
  3. Experimentación Exhaustiva: Abarca múltiples tipos de datos y configuraciones desafiantes, resultados convincentes
  4. Innovación Metodológica: La aplicación de pseudoetiquetas en construcción de lotes es novedosa

Deficiencias

  1. Sobrecarga Computacional: El mantenimiento de m modelos paralelos aumenta costos computacionales
  2. Rigor Teórico: Algunas derivaciones (como BAIT) dependen de aproximaciones informales
  3. Limitaciones Experimentales: Principalmente verificado en modelos relativamente simples (regresión logística)
  4. Sensibilidad a Hiperparámetros: El análisis de la compensación entre rendimiento y computación para la selección de m es insuficiente

Impacto

  1. Impacto Teórico: Proporciona nueva perspectiva teórica para aprendizaje activo, potencialmente inspirando investigación posterior
  2. Valor Práctico: El método ParBaLS tiene valor de aplicación directa, particularmente en escenarios de anotación por lotes
  3. Reproducibilidad: Proporciona código de código abierto, facilitando reproducción y extensión

Escenarios de Aplicación

  1. Tareas de Alta Incertidumbre: Datos tabulares y escenarios con desplazamiento de subgrupo con incertidumbre irreducible
  2. Necesidades de Anotación por Lotes: Aplicaciones prácticas requiriendo anotación en lotes en lugar de individual
  3. Configuración Bayesiana: Modelos y tareas capaces de realizar inferencia bayesiana

Referencias

Este artículo cita literatura importante en el campo del aprendizaje activo, incluyendo:

  • Métodos clásicos de muestreo por incertidumbre (Lewis, 1995)
  • Métodos de aprendizaje activo bayesiano (Houlsby et al., 2011; Gal et al., 2017)
  • Métodos de aprendizaje activo por lotes (Kirsch et al., 2019, 2023)
  • Métodos de reducción de error esperada (Roy and McCallum, 2001; Mussmann et al., 2022)

Evaluación General: Este es un artículo con valor teórico y práctico importante en el campo del aprendizaje activo. Al unificar algoritmos existentes mediante TDBM y proponer ParBaLS para resolver problemas de selección de lotes, proporciona nuevas direcciones de investigación para el campo. Aunque existen espacios de mejora en eficiencia computacional y rigor teórico, sus contribuciones son significativas.